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译 痢 序 


《自制 搜索 引擎 》 一 书 终于 和 读者 们 见面 了 ,， “上 自制 ?系列 图 书 的 家 族 中 
又 多 了 一 名 新 成 员 。 近 几 年 ， 图 灵 先 后 出 版 了 儿 本 “自制 ”系列 图 书 ， 如 
《30 天 上 自制 操作 系统 》《 上 自制 编程 语言 》《 两 周 目 制 脚本 语言 》 等 。 
在 这 些 书 中 ， 我 们 不 用 去 读 杜 燥 乏 味 的 原理 和 了 上 深 难 懂 的 算法 ， 只 需 跟 
随 作 者 的 脚步 ， 即 可 从 零 开始 ， 一 步 步 地 创造 出 操作 系统 或 编程 语言 的 
E 形 。 
《自制 搜索 引擎 》 一 书 也 不 例外 。 在 这 本 不 到 200 页 的 书 中 ， 作 者 先 用 
简明 扼要 、 通 俗 易 懂 的 语言 为 我 们 讲解 了 搜索 引擎 的 结构 及 核心 概念 ， 
紧 接着 又 市 领 我 们 误 析 了 一 个 名 为 wiser 的 原创 搜索 引擎 的 源 代 码 。 理 
论 与 大 量 源 代码 的 结合 帮助 我 们 迈 入 了 搜索 引擎 的 大 门 ， 只 要 用 心 阅读 
并 实际 操作 ， 就 能 制作 出 一 个 可 以 在 计算 机 上 运行 的 简易 搜索 引擎 。 然 
而 与 其 他 计算 机 技术 一 样 ， 虽 然 搜 索引 擎 的 入 门 很 简单 ， 但 要 成 为 这 个 
领域 的 技术 专家 却 并 不 容易 ， 离 不 开 大 量 的 知识 积累 和 实践 。 所 以 在 分 
析 完 源 代码 以 后 ， 作 者 又 带领 我 们 优化 了 现 有 的 wiser 搜索 引擎 ， 并 简 
单 地 介绍 了 一 些 更 加 专业 的 知识 ， 以 局 及 我 们 深入 思考 ， 为 进一步 学 习 
铺 平 了 道路 。 


阅读 本 书 几乎 不 需要 任何 有 关 搜 索引 擎 的 知识 储备 ， 但 由 于 wiser 是 用 
C 语言 编写 的 ， 所 以 您 最 好 还 是 能 有 些 C 语言 的 编程 经 验 。“ 呵 ， 用 C 
写 的 啊 ? ”也 许 您 也 和 我 当初 一 样 ， 一 昕 是 C 语言 就 泄气 了 。 的 确 ，C 
语言 不 是 那么 好 用 。 指 针 是 个 难点 不 说 ， 有 些 语句 的 写法 也 显得 很 诡 
异 ， 而 且 还 缺乏 丰富 的 内 置 函数 和 数据 结构 。 但 如 果 您 坚信 某 某 语言 才 
是 世界 上 最 好 的 语言 ， 并 要 因此 放弃 本 书 的 话 ， 那 么 我 建议 您 先 下载 
wiser 的 源 代码 读 一 读 再 做 决定 。wiser 的 源 代 码 仅 有 大 约 2600 行 。 即 
使 只 向 一 眼 ， 也 应 该 能 够 发 现 这 些 源 代码 不 但 具有 详细 的 注释 、 清 晰 的 
结构 ， 而 且 遵 循 了 良好 的 命名 规范 。 人 和 仔细 地 阅读 后 ， 甚 至 还 能 看 到 有 些 
地 方 应 用 了 回调 函数 、 设 计 模 式 等 所 谓 的 “现代 ”编程 技巧 。 不 仅 如 此 ， 
作者 还 通过 引入 了 名 为 uthash 的 代码 库 简 化 了 对 字符 串 、 列 表 和 哈 希 表 
的 操作 。 例 如 要 同 列表 中 添加 元 素 时 ， 只 需 使 用 形 

如 “LL_APPEND(*]ist, element);” 的 一 行 代 码 ， 这 就 大 大 增加 了 代码 的 可 
读 性 。 相 信和 您 读 到 最 后 也 会 由 训 地 感叹 : 原来 C 语言 也 能 这 么 好 用 啊 。 























对 于 想 要 开发 搜索 引擎 的 读者 来 次 ， 本 书 的 作用 目 不 必 次 。 而 对 于 专注 
于 其 他 领域 的 开发 者 ， 甚 至 对 于 那些 只 是 想 学 门 新 技术 来 娱乐 一 下 的 程 
序 员 来 说 ， 读 读本 书 也 是 大 有 神 益 的 。 例 如 ， 我 们 可 以 从 中 学 到 如 何 蜗 
效 地 求 得 多 个 大 集合 的 交集 ， 如 何 压缩 存储 大 量 的 整数 ， 如 何 运 用 sar 
命令 查看 并 分 析 系 统 的 性 能 等 。 即 使 我 们 不 从 事 搜 索引 擎 的 开发 工 作 ， 
这 些 算法 和 技术 也 会 对 日 常 的 工作 有 所 局 友 和 帮助 。 所 以 ， 读 过 了 本 
书 ， 束 算 您 并 不 打算 做 一 个 搜索 引擎 出 来 ， 也 能 得 到 一 些 收获 。 


值得 一 提 的 是 ， 在 本 书 中 很 多 叙述 得 较为 简练 甚 全 一 笔 带 过 的 段落 中 ， 
其 实 隐藏 痢 大 量 的 知识 。 在 掌握 了 搜索 引 车 的 核心 技术 后 ， 不 妨碍 碍 资 
料 、 写 写 代码 ， 试 着 去 掌握 这 些 更 高 级 的 知识 ， 搞 清楚 里 面 专业 术语 的 
含义 。 例 如 ， 书 中 提 到 了 字典 树 (Tier〉 、Suffix Array 等 国内 教材 中 罕 
见 的 数据 结构 ， 那 么 我 们 能 不 能 用 目 己 熟悉 的 编程 语言 实现 它们 ? 作者 
开发 的 开源 搜索 引擎 Groonga 采用 了 和 内存 映射 文件 技术 ， 那 么 和 内存 映 射 
文件 的 机 制定 什么 .…… 在 不 断 探索 这 些 问题 的 过 程 中 ， 我 们 不 但 能 把 这 
本 不 算 厚 的 书 读 得 越 来 越 厚 ， 也 能 使 目 己 的 知识 量 不 断 增长 。 


最 后 ， 在 这 里 囊 心 感谢 在 翻译 过 程 中 给 予 我 文 持 与 至 励 的 各 位 。 欢 迎 诸 
位 读者 批评 指正 ， 提 出 宝贵 的 建议 。 和 希望 所 有 对 搜索 引擎 感 兴趣 的 读者 
都 能 从 本 书 中 获 苑 。 
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采 言 


本 书 聚 焦 于 Google 和 Yahool 等 Web 检索 服务 幕后 的 搜索 引擎 ， 虽 在 
前 明 这 种 系统 内 部 的 工作 机 制 。 诸 位 读者 通过 第 1 章 的 学 习 ， 掌 握 了 搜 
索引 擎 的 基础 知识 和 原理 之 后 ， 就 可 以 从 第 2 间 开 始 ， 对 照 着 示例 搜索 
引擎 的 源 代 码 体验 搜索 引擎 的 开发 过 程 了 。 这 种 原理 和 实践 的 有 机 结 
合 ， 有 助 于 大 家 更 加 深入 地 理解 搜索 引擎 的 构造 。 


一 直 在 企业 和 大 学 从 事 搜 索引 擎 研发 工作 的 山田 负责 搜索 引擎 原理 的 写 

作 ， 并 完成 了 整体 构思 和 统 稿 的 工作 。 开 源 搜索 引擎 Senna/Groonga 的 

开发 者 、 拥 有 多 个 检索 服务 实战 经 验 的 末 永 在 书 中 介绍 了 实践 和 运用 搜 

ee 这 种 内 容 上 的 相互 补充 使 得 原理 和 实践 有 机 地 结合 在 
一 起 。 


大 从 本 书 获得 的 知识 和 经 验 能 有 助 于 诸位 读者 创造 出 划时代 的 软件 和 服 
务 ， 我 们 将 感到 不 胜 荣 笠 。 
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于 2014 年 8 月 


第 1 章 搜索 引擎 是 如 何 工 作 的 


在 体验 搜索 引擎 的 开发 过 程 之 前 ， 我 们 先 在 第 1 章 介 绍 一 下 搜索 引擎 的 
基本 概念 。 搜 索引 擎 的 基础 是 应 用 于 信息 检索 、 数 据 库 等 领域 的 信息 拉 
术 ， 要 想 开 发 搜索 引擎 ， 模 路 多 个 领域 的 广泛 知识 是 不 可 或 缺 的 。 在 本 
章 我 们 尽 可 能 通俗 易 履 、 简 明 扼要 地 总 结 归 纳 了 这 些 知 识 。 由 于 本 章 讲 
解 的 是 后 续 章 节 的 背景 知识 ， 所 以 恳请 诸位 认真 地 读 下 去 。 














1-1 理解 搜索 引擎 的 构成 


在 本 节 ， 我 们 首先 介绍 什么 是 搜索 引擎 ， 然 后 再 大 略 地 讲解 其 基本 架 
构 。 由 于 从 1-2 节 开 始 还 会 详细 地 讲解 有 关内 容 ， 所 以 在 本 节 就 让 我 们 
先 在 大 体 上 了 解 一 下 搜索 引擎 的 全 貌 吧 。 


什么 是 搜索 引擎 


搜索 引擎 是 一 关系 统 或 软件 的 统称 ， 作 用 是 从 文档 的 集合 中 碍 找 〈 检 
出 匹配 信息 需求 〈 碍 询 ) 的 文档 ， 信 息 需 求 是 由 单词 、 问 题 等 构成 


确切 地 说 ， 本 书 所 讲解 的 搜索 引擎 其 实 是 “全 文 搜 索引 擎 "。 所 谓 的 “全 
文 ” 指 的 就 是 全 部 的 句子 ， 当 检索 的 对 象 为 “由 文本 构成 的 文档 中 的 全 部 
人 句子” 时， 对 于 该 文档 进行 的 检索 就 称 为 全 文 搜索 。 而 实现 了 这 种 全 文 
搜索 的 系统 就 是 全 文 搜索 引擎 《全文 搜 索 系 统 ) ， 在 英文 中 一 般 称 为 

Full-text Search Engine。 在 本 书 之 后 的 章节 中 ， 提 到 “搜索 引擎 ” 指 的 就 
是 全 文 搜索 引擎 。 


在 现代 的 搜索 引擎 中 ， 不 仅 能 看 到 Google 和 Yahool! 等 Web 检索 ， 还 
可 以 看 到 邮件 检索 和 专利 检索 等 各 式 各 样 的 应 用 程序 (应 用 层 ) 。 当 
然 ， 应 用 程序 的 用 途 和 使 用 方式 不 同 ， 搜 索引 擎 的 规模 和 其 所 要 求 的 系 
统 必 备 条 件 也 就 不 同 。 尽 管 如 此 ， 在 这 些 应 用 程序 中 ， 搜 索引 擎 的 基本 
结构 却 没 有 太 大 的 差异 。 本 书 将 以 搜索 引擎 的 基本 结构 为 主 进行 讲解 。 
下 面 ， 就 让 我 们 先 从 搜索 引擎 的 全 貌 看 起 吧 。 
构成 搜索 引擎 的 组 件 
搜索 引擎 一 般 由 以 下 4 个 组 件 构成 。 

。 索引 管理 器 (Index Manager ) 

。 索引 检索 器 (Index Searcher) 


。 索引 构建 器 (Indexer) 


























。 文档 管理 器 (Document Manager ) 


图 1-1 展示 了 构成 搜索 引擎 的 全 部 要 素 。 首 先 让 我 们 简单 地 看 看 这 些 组 
件 都 在 进行 着 怎样 的 工作 吧 。 





tr 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 个 


索引 构建 器 索引 管理 器 索引 检索 器 | 
;检索 应 用 程序 





Wan 


图 1-1 搜索 引擎 的 构成 
1 索引 管理 需 
索引 管理 器 组 件 的 作用 是 管理 带 有 寺 引 结构 的 数据 ， 索 引 络 构 是 一 种 用 














人 
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索引 管理 器 通 闻 是 将 索引 作为 二 级 存储 上 的 二 进 制 文件 来 进行 管理 的 。 
而 且 ， 还 经 名 会 通过 保存 经 过 压缩 的 索引 来 达到 减少 从 二 级 存储 加 载 的 
数据 量 ， 提 升 检 索 处 理 效率 的 目的 。 


1 索引 检索 器 


索引 检索 器 是 利用 索引 进行 全 文 搜索 处 理 的 组 件 。 肥 引 检索 器 根据 来 目 
检索 应 用 程序 用 户 的 查询 ， 协 同 索 引 管 理 器 进行 检索 处 理 。 在 大 多 数 情 
况 下 ， 索 引 检索 器 都 会 根据 某 种 标准 对 与 查询 相 匹 配 的 检索 结果 排序 ， 
并 将 排 在 前 面 的 结果 返回 给 应 用 程序 。 



































另外 ， 本 书 将 查询 和 信息 需求 视 为 同义词 。 所 谓 碍 询 是 指 “ 由 1 个 以 上 
的 单词 或 词组 组 成 的 对 搜索 引擎 的 询问 ”。 


1 索引 构建 器 


索引 构建 器 是 从 作为 检索 对 象 的 文本 文档 中 生成 过 引 的 组 件 。 索 引 构 建 
器 会 先 通 过 解析 将 文本 文档 分 解 为 单词 序列 ， 然 后 再 将 该 单词 序列 转换 
为 索引 结构 。 在 搜索 引 敬 中 ， 将 生成 索引 的 环节 称 为 索引 构建 (Index 


Construction)。 
1 文档 管理 需 


文档 管理 器 是 管理 文档 数据 库 的 组 件 ， 文 档 数 据 库 中 储存 着 作为 检索 对 
象 的 文档 。 文 档 管理 器 会 先 从 文档 数据 库 中 取出 与 查询 相 匹 配 的 文档 ， 
然后 再 根据 需要 从 该 文档 中 提取 出 一 部 分 内 容 作 为 摘要 。 


由 于 文档 管理 器 的 结构 非常 简单 ， 只 是 对 应 着 文档 特定 的 ID 〈 文 档 编 
号 ) 来 保存 文档 的 内 容 ， 所 以 本 书 就 省 略 了 相关 的 详细 介绍 。 我 们 经 党 
能 看 到 有 人 将 数据 库 管 理 系统 (DBMS ) 和 基于 二 级 存储 的 数据 库 管 理 
如 (DBM) 等 用 作文 档 管 理 妖 。 


由 文档 管理 器 管理 的 文档 数据 库 既 可 以 在 构建 索引 的 阶段 随 索 引 一 同 构 
建 ， 也 可 以 提前 构建 。 


与 搜索 引擎 相关 的 组 件 


严格 来 讲 ， 本 节 所 介绍 的 朴 虫 和 搜索 排序 系统 虽 不 是 搜索 引擎 的 一 部 
份 ， 但 却 是 与 搜索 引擎 密切 相关 的 组 件 。 


1 疏 虫 

爬虫 (Crawler) 是 用 于 收集 Web 上 的 HTML 文件 等 文档 的 系统 (机 器 
人 ) 。 例 如 ， 用 于 Web 检索 的 爬虫 就 是 通过 追随 Web 页面 上 的 超 链接 
来 收集 全 世界 的 HIML 网 页 的 。 全 世界 的 Web 页 面 正 以 惊人 的 速度 不 
断 增 长 ， 因 此 扑 虫 的 任务 束 是 高 效 地 收集 这 些 网 页 。 


1 搜索 排序 系统 




















以 Google 的 PageRank 系统 为 代表 的 搜索 排序 系统 是 给 作为 检索 对 象 的 
文档 打分 的 系统 。 例 如 ， 在 Web 检索 中 ， 通 常会 以 考量 了 但 询 与 文档 
的 关联 性 以 及 文档 的 热门 度 后 得 出 的 分 数 为 基准 ， 将 检索 结果 排序 后 提 
供给 应 用 程序 的 用 户 。 搜 索 排 序 系统 正 是 用 于 此 目的 的 、 能 (机 械 地 )》 
算出 文档 热门 度 的 系统 。 


在 本 节 ， 我 们 讲解 了 搜索 引擎 的 一 般 构 成 以 及 各 个 组 件 的 主要 用 途 。 由 
于 在 后 面 的 章节 还 会 继续 一 一 讲解 各 个 组 件 ， 所 以 即使 现在 还 未 能 充分 
理解 也 不 必 担 心 ， 可 以 先 从 大 体 上 把 握 搜 索引 擎 的 全 貌 。 














1-2 ”实现 了 快速 全 文 搜索 的 索引 结构 


本 节 讲 解 的 是 用 于 快速 进行 全 文 搜索 的 索引 结构 。 在 讲解 广泛 应 用 于 全 
I 
索 的 方法 。 


全 文 搜索 的 两 种 方法 


全 文 搜 索 大 致 上 可 以 分 为 两 种 方法 ， 一 种 是 利用 全 扫描 进行 全 文 搜 
索 ， 一 种 是 利用 索引 进行 全 文 搜索 。 


1 利用 全 扫描 进行 全 文 搜索 


第 一 种 方法 是 从 头 到 尾 扫描 作为 检索 对 象 的 文档 ， 以 此 来 搜索 要 检索 的 
字符 串 。 由 于 Unix 的 字符 串 检索 命令 “grep” 也 是 以 同样 的 方式 进行 搜索 
的 ， 所 以 有 时 也 将 这 种 方法 称 为 “grep 型 搜索 ”。 


在 利用 全 扫描 进行 全 文 搜索 时 ， 虽 然 不 需要 事先 处 理 作为 检索 对 象 的 文 
档 ， 但 问题 是 文档 数 越 多 检索 时 间 就 越 长 。 因 此 ， 一 般 认为 这 种 方法 只 
适用 于 处 理 少 量 或 暂时 性 的 文档 。 


另外 ， 在 通过 对 文档 进行 全 扫描 来 搜索 字符 溃 的 方法 中 ， 有 一 些 高 效 的 
算法 ， 例 如 KMP 算法 和 BM 算法 。 本 书 并 不 会 介绍 这 些 算法 ， 知 诸位 
有 兴趣 的 话 可 以 去 参考 有 关 算 法 的 教材 。 


1 利用 索引 进行 全 文 搜 索 


相对 于 利用 全 扫描 进行 全 文 搜索 的 方法 ， 第 二 种 方法 ， 即 利用 索引 的 方 
法 ， 则 需要 事 允 为 文档 建立 索引 ， 然 后 利用 索引 来 搜索 要 检索 的 字符 

串 。 虽 然 事先 建立 索引 需要 花费 时 间 ， 但 是 优点 是 即使 文档 的 数量 增 

加 ， 检 索 速 度 也 不 会 大 幅 下 降 。 因 此 ， 一 般 认 为 这 种 方法 更 适合 处 理 大 
量 的 文档 。 搜 索引 擎 一 般 也 会 采用 这 种 方法 。 


虽然 索引 分 为 很 多 种 ， 每 种 的 结构 都 不 同 ， 但 是 以 Google 和 Yahool 为 
代表 的 大 多 数 搜索 引擎 采用 的 都 是 名 为 倒 排 索引 的 索引 结构 。 也 就 是 
说 ， 在 全 文 搜索 中 倒 排 索引 是 一 种 最 第 见 的 索引 结构 。 各 位 将 要 通过 本 























书 体验 其 开发 过 程 的 搜索 引擎 有 用 的 也 是 倒 排 索引 。 
下 面 我 们 就 开始 讲解 倒 排 索引 的 结构 。 
倒 排 索引 的 结构 


虽然 看 似 与 本 节 的 主题 无 关 ， 但 还 是 请 诸位 先 回想 一 下 印 在 教材 或 专业 
书 等 图 书后 面 的 索引 。 在 书后 的 索引 中 ， 通 常 都 会 写 有 关键 词 ( 单 词 ) 
和 出 现 了 该 关键 词 的 页 码 。 由 于 关键 词 是 按 词 典 顺 序 排列 的 ， 所 以 但 找 
时 无 需 逐 一 浏览 ， 只 需 按照 拼音 字母 的 顺序 逐渐 缩小 查找 范围 ， 就 能 轻 
松 地 找到 关键 词 。 而 只 要 再 癌 这 个 关键 词 的 劳 边 看 一 眼 ， 束 能 立刻 知道 
该 天 键 词 出 现在 哪 一 页 了 。 

实际 上 ， 倒 排 索 引 具 有 与 图 书 案 引 完 全 相同 的 逻辑 结构 。 下 面 就 让 我 们 
以 一 本 书 中 的 文档 为 例 来 具体 看 看 倒 排 索引 吧 。 这 本 书 由 以 下 两 页 组 
成 ， 内 容 分 别 如 下 所 示 。 


。 第 1 页 (P1) : Ilike search engines. 

















。 第 2 页 (P2) : I search keywords in Google. 
表 1-1 列 出 了 这 本 书 的 倒 排 索引 。 
表 1-1 示例 书籍 中 的 倒 排 索引 





从 表 1-1 应 该 就 能 看 出 倒 排 索引 确实 和 图 书 的 索引 拥有 相同 的 结构 。 看 
到 单词 时 只 要 碍 一 下 这 张 表 ， 该 单词 出 现在 哪 一 页 就 一 目 了 然 了 了 。 上 所 谓 
倒 排 索引 融 是 一 张 列 出 了 “哪个 单词 出 现在 了 哪 一 页 ”的 表格 。 





倒 排 索引 的 构建 方法 

如 何 才能 构建 出 倒 排 索引 呢 ? 下 面 束 让 我 们 使 用 上 面 的 书籍 示例 ， 具 体 
地 看 一 看 构建 倒 排 索引 的 步骤 吧 。 首 先 ， 要 以 表格 的 形式 归纳 出 书 中 的 
每 一 页 都 使 用 了 哪些 单词 。 归 纳 出 的 表格 如 表 1-2 所 示 。 请 注意 此 时 要 
将 英文 单词 的 复数 形式 还 原 为 单数 形式 。 


表 1-2 表 中 列 出 了 书 中 的 哪 一 页 使 用 了 哪个 单词 
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在 表 1-2 中 ， 我 们 以 书 中 使 用 过 的 单词 为 行 标 题 ， 以 页 码 为 列 标题 。 写 
好 行 、 列 标题 后 ， 当 某 页 使 用 了 某 个 单词 ， 束 将 1 填 入 对 应 的 格子 中 。 
例如 ， 第 1 页 (P1) 使 用 了 I、like、search、engine 几 个 单词 ， 因 此 就 
在 对 应 的 几 个 格子 中 写 入 1。 对 于 第 2 页 (P2) 也 是 如 此 。 由 于 表格 是 
从 左 回 右 填 写 的 ， 所 以 自然 也 要 从 左 问 右 浏 览 ， 这 样 就 能 读 出 出 现在 各 
页 中 的 单词 了 。 夺 是 从 上 问 下 浏览 ， 又 会 有 什么 发 现 呢 ?这 样 浏览 应 该 
能 读 出 每 个 单词 都 出 现在 哪 一 页 上 了 。 为 了 便于 浏览 ， 我 们 交换 了 表 1- 
2 的 行 和 列 ， 并 将 单词 按照 词典 顺序 进行 了 排序 ， 最 终结 果 如 表 1-3 所 
示 。 


表 1-3 表 中 列 出 了 书 中 的 哪个 单词 出 现在 了 哪 一 页 上 








从 表 1-3 应 该 就 能 看 出 ， 实 际 上 到 了 这 个 阶段 ， 倒 排 索引 就 已 经 大 致 完 
成 了 。 剩 下 的 步骤 惑 与 制作 图 书 的 索引 一 样 了 ， 只 要 改 用 精简 的 表示 方 
nt 
Tl 


1 实际 上 也 有 用 0/1 填充 表格 的 表示 方法 。 这 是 一 种 称 为 位 图 (Bitmap) 的 有 别 于 倒 排 索引 的 
表示 方法 。 在 处 理 大 量 的 文档 时 ， 位 图 的 表 会 变 得 非常 大 ， 而 且 表 中 的 大 部 分 元 素 都 是 0 (成 
为 了 稀疏 表 ) ， 这 导致 表 虽 然 很 大 ， 但 是 信息 量 却 很 少 没有 有 效 地 利用 空间 ) ， 所 以 现在 已 
经 很 少 使 用 位 图 作为 检索 的 索引 结构 了 。 


像 这样 ， 将 表示 “在 哪 一 页 上 使 用 了 哪个 单词 ?的 表格 转换 为 "哪个 单词 

出 现在 了 哪 一 页 上 ”的 表格 ,就 可 以 制作 出 倒 排 索引 了 。 男 外 ， 之 所 以 

0 
65 到 3? 。 


倒 排 索引 中 的 术语 

在 生成 的 倒 排 索引 中 ， 我 们 建立 起 了 页 中 的 单词 和 页 的 对 应 关系 。 也 就 
古 说 ， 我 们 是 把 页 当成 了 构建 索引 的 单位 。 之 所 以 这 样 做 ， 是 因为 在 翻 
阅 图 书 时 ， 和 人们 通常 是 以 “页 ”作为 单位 的 。 

那么 ， 对 于 其 他 情况 又 要 如 何 处 理 呢 ? 例如 ， 对 于 Web 上 的 HTML 文 


档 ， 我 们 可 以 将 1 个 HIML 网 页 作为 构建 索引 的 单位 。 而 对 于 邮件 ， 
我 们 可 以 将 1 封 邮件 作为 构建 索引 的 蛙 位 。 























































































































由 此 可 见 ， 对 于 每 种 作为 检索 对 象 的 数据 ， 构 建 索 引 的 单位 都 是 不 同 
的 。 在 全 文 搜索 中 ， 将 构建 索引 的 单位 统称 为 "文档 ”(Document) ， 将 
文档 的 标识 信息 称 为 "文档 编号 ”。 文 档 编 号 类 似 图 书 的 页 码 ， 用 于 唯一 
地 标识 某 个 文档 。 因 此 ， 也 可 以 这 样 说 ， 上 兵 谓 倒 排 索 引 融 是 “把 单词 和 
单词 所 在 文档 的 文档 编号 对 应 起 来 的 表格 ”。 


另外 ， 在 倒 排 索引 中 ， 将 表示 单词 和 文档 编号 对 应 关系 的 信息 称 为 倒 排 
项 (Posting) ， 将 各 个 单词 的 倒 排 项 的 集合 称 为 倒 排 列表 (Postings 
List) 。 例 如 ， 在 刚刚 的 倒 排 索引 中 ， 单 词 search 的 倒 排 项 是 Pl 和 
P2， 倒 排列 表 是 P1、P2 的 集合 ， 记 作 “P1,P2”。 








1-3 深入 理解 倒 排 索引 


至 此 为 止 ， 我 们 就 讲解 完了 倒 排 索引 的 概要 。 下 面 ， 就 让 我 们 再 来 略微 
详细 地 了 解 一 下 倒 排 索引 吧 。 


倒 排 索引 = 词典 + 倒 排 文 件 
倒 排 索引 是 由 单词 的 集合 “词典 ”和 倒 排列 表 的 集合 “ 倒 排 文件 构成 的 。 


人 以 及 作为 这 二 者 构成 要 素 的 单词 和 倒 排 列表 的 关系 如 图 
1-2 所 示 。 
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| , 倒 排 列表 
! | 倒 排 项 { Postings List } 
(Posting | 
词典 倒 排 文件 
{ Dictionary } { Inverted List } 


图 1-2 倒 排 索引 的 结构 

词典 中 的 每 个 单词 都 持 有 一 段 引 用 信息 ， 指 明了 对 应 着 该 单词 的 倒 排列 
表 。 利 用 这 段 引用 信息 ， 我 们 就 可 以 从 词典 中 的 各 个 蛙 词 那里 获取 到 相 
应 的 倒 排列 表 了 。 


从 倒 排 索 引 中 碍 找 单 词 





在 要 从 倒 排 索引 中 得 找 出 包含 了 茶 个 单词 的 文 要 ， 只 需要 多 从 词典 中 找 
到 该 单词 ， 然 后 获取 与 之 对 应 的 倒 排 列表 ， 最 后 从 倒 排列 表 中 获取 文档 
编号 即 可 。 这 里 只 是 改 用 检索 的 术语 将 之 前 讲解 过 的 方法 描述 了 一 过 ， 
所 以 大 有 疑问 的 话 ， 请 再 重新 读 读 前 面 的 内 容 。 


那么 ， 我 们 又 该 如 何 查 找 同时 包含 了 多 个 单词 的 文档 呢 ? 查 找 时 只 需要 
先 从 词典 中 找 出 各 个 单词 ， 然 后 分 别 获取 这 些 单词 的 倒 排 列表 并 加 在 一 
起 ， 由 此 计算 出 包含 在 各 个 倒 排 列表 中 的 文档 编写 的 交集 。 举 例 来 说 ， 
假设 我 们 使 用 的 是 上 一 节 生 成 的 那个 倒 排 索引 ， 并 要 从 中 得 找 出 既 包含 
search 又 包含 engine 的 文档 。 那 么 根据 上 述 方法 ， 一 旦 获取 到 了 search 
和 engine 分 别 对 应 的 倒 排 列表 ， 束 可 以 知道 search 包含 在 页 面 1 (P1) 
和 页 面 2 〈P2) 中 ，engine 包含 在 页 面 1 (P1) 中 。 而 接 下 来 ， 只 要 再 
计算 出 这 两 个 倒 排列 表 的 交集 ， 束 又 可 以 知道 同时 包含 这 两 个 单词 的 文 
档 是 文档 1 (P1) 。 


将 单词 的 位 置信 息 加 入 倒 排 文件 中 
到 目前 为 止 ， 我们 见 到 的 倒 排 文件 都 只 带 有 “各 单词 都 出 现在 了 哪个 文 
档 中 ”这 一 种 信息 。 这 样 的 倒 排 文件 称 为 “文档 级 别 的 倒 排 文 


件 ”(Document-level Inverted File) 。 


除 此 以 外 ， 还 有 男 一 种 倒 排 文件 ， 称 作 “ 单 词 级 别 的 倒 排 文件 ”(Word- 
level Inverted File〉。 这 种 倒 排 文件 中 不 仅 帝 有 有 关 单 词 出 现在 了 哪个 
文档 中 的 信息 ， 还 带 有 单词 出 现在 了 文档 中 的 什么 位 置 〈 从 开头 数 是 第 
几 个 单词 ) 这 一 信息 。 


在 单词 级 别 的 倒 排 文件 中 ， 各 个 倒 排 项 的 表示 方法 如 下 所 示 。 
DocID;offset1, offset2... 

还 是 以 刚刚 使 用 过 的 两 个 文档 为 例 ， 从 头 数 的 话 ， 单 词 search 是 文档 
1 (P1) 中 的 第 3 个 单词 ， 是 文档 2 (P2) 中 的 第 2 个 单词 ， 因 此 其 倒 
排列 表 是 

search: D1;3, D2;2 


如 果 把 各 个 单词 在 文档 中 的 出 现 位 置 都 如 此 考察 一 近 ， 就 可 以 得 到 如 下 
所 示 的 单词 级 别 的 倒 排 文件 了 。 





engine: D1;4 
Google: D2;5 

TI: D1;1,D2;1 

in: D2;4 

keyword: D2;3 
like: D1;2 

search: D1;3, D2;2 


随后 我 们 要 介绍 的 从 倒 排 索引 中 碍 找 短语 ， 或 是 计算 检索 结果 中 文档 的 
得 分 等 场景 中 都 会 用 到 这 种 单词 的 位 置信 息 。 


从 倒 排 索引 中 查找 短语 


我 们 刚刚 讲解 的 是 如 何 利用 文档 级 别 的 倒 排 文件 得 找 同 时 包含 search 和 
engine 的 文档 。 但 是 利用 这 种 方法 得 到 的 检索 结果 ， 未 必 都 是 关于 搜索 
引擎 (search engine) 的 文档 。 例 如 ， 虽 然 下 面 的 文档 也 同样 包含 了 
search 和 engine， 但 却 与 搜索 引擎 无 天 。 














I search for a gas station because my car's engine doesn't start. 
(因为 汽车 的 引擎 发 动 不 起 来 了 ， 所 以 我 要 找 加 油 站 。) 


因此 ， 要 想 查 找 关 于 搜索 引 敬 的 文档 ， 束 需要 从 倒 排 索引 中 找 出 含有 短 
语 search engine 的 文档 。 而 要 想 从 倒 排 索引 中 查找 短语 ， 就 需要 使 用 刚 
刚 介绍 过 的 单词 级 别 的 倒 排 文件 ?。 


?也 可 以 使 用 文档 级 别 的 倒 排 文件 找 出 含有 短语 search engine 的 文档 ， 方 法 是 在 检索 完 各 个 单 
词 之 后 ， 用 全 扫描 的 方式 在 原文 档 中 检索 该 短语 。 但 是 ， 这 样 做 的 效率 通常 较 低 。 


在 使 用 单词 级 别 的 倒 排 文件 查找 短语 时 ， 前 几 步 与 使 用 文档 级 别 的 倒 排 
列表 相同 ， 即 也 是 先 从 词典 中 找 出 单词 search 和 engine， 然 后 分 别 获取 
它们 的 倒 排 列表 ， 最 后 算出 这 两 个 倒 排列 表 中 文档 编号 的 交集 。 但 是 
到 这 里 还 没有 结束 ， 碍 找 短语 时 还 需要 确认 search 和 engine 是 否 是 相 






















































































邻 出 现 的 。 在 上 面 的 例子 中 ， 由 于 search 和 engine 都 出 现在 了 文档 1 
中 ， 并 且 search 是 文档 1 中 的 第 3 个 单词 ，engine 是 第 4 个 单词 ， 这 说 
明 这 两 个 单词 是 相 邻 出 现 的 ， 所 以 可 以 得 出 结论 ， 短 语 search engine 出 
现在 了 文档 1 中 。 


1-4 ”制作 中 文 文档 的 倒 排 索引 
至 此 为 止 ， 我 们 就 讲解 完了 针对 英文 文档 的 倒 排 索引 。 在 英文 的 句子 
中 ， 由 于 单词 之 间 留 有 空白 ， 所 以 通过 用 空白 划分 句子 就 可 以 提取 出 句 
中 的 单词 。 但 是 在 中 文 的 句子 中 ， 由 于 各 单词 是 词 间 不 留 空 白 连 续 书写 
的 ， 所 以 就 需要 使 用 不 同 于 英文 的 方法 ， 才 能 将 句子 分 割 成 单词 或 字符 
的 序列 。 在 本 节 我 们 详细 地 看 一 下 分 割 中 文句 子 的 方法 。 
分 割 中 文句 子 的 方法 

若 要 将 类 似 中 文 的 句子 ， 即 单词 无 法 通过 空白 划分 出 来 的 句子 分 割 成 单 
词 序列 ， 通 常 有 以 下 两 种 方法 。 

。 词 素 解析 分 割 法 














e。N-gram (q-gram) 分 割 法 
下 面 就 让 我 们 详细 地 看 一 看 这 两 种 分 割 方法 吧 。 
1 词素 解析 分 割 法 
词素 解析 (Morphological Analysis) 分 割 法 是 一 种 将 句子 分 割 为 “ 词 


素 ” 序 列 的 方法 。 词 系 是 语言 中 含有 意义 的 最 小 单位 。 例 如 ， 如 果 使 用 
0 00 0 








全 文 搜索 引擎 


由 于 中 文 的 语法 极其 复杂 ， 所 以 一 般 认 为 对 中 文句 子 正 确 地 进行 词素 解 
析 是 件 非 常 困难 的 事 。 近 几 年 ， 在 词素 解析 上 ， 一 般 采 用 的 是 机 器 学 习 
的 方法 。 机 器 学 习 的 过 程 是 先 学 习 由 手工 作业 正确 分 割 句 子 后 得 到 的 数 
据 ， 然 后 推理 出 应 该 如 何 分 割 未 知 的 句子 《以 及 如 何 标注 词性 等 ) 5。 
一 般 认 为 现代 词素 解析 的 精度 已 经 非常 高 了 ， 在 大 多 数 情况 下 ， 都 能 
确 地 判断 出 中 文句 子 应 该 在 哪里 分 割 成 词 。 不 过 ， 对 于 那 种 在 博客 等 环 
境 中 第 用 的 含有 大 量 口语 表达 的 句子 ， 精 度 还 是 会 大 幅 下 降 的 。 


3 机 器 学 习 中 的 有 些 方法 采用 了 隐 马 尔 可 夫 模 型 (Hidden Markov Model) ， 有 些 采 用 了 条 件 随 
























































机 场 (Conditional Random Field) 概率 模型 。 
1 N-gram (q-gram) 分 割 法 


N-gram 分 割 法 是 一 种 将 句子 分 割 成 由 N 个 字符 组 成 的 片段 序列 的 方 
法 ， 每 个 片段 称 作 一 个 N-gram。N 的 取 值 通常 为 2 或 3。NN = 二 1 时 称 作 
uni-gram (一 元 gram) ，N 二 2 时 称 作 bi-gram (二 元 gram) ，N 王 3 
时 称 作 tri-gram〔 三 元 gram) 。 例 如 ， 如 果 使 用 bi-gram 去 分 割 “ 全 文 搜 
索引 擎 ”这 段 文本 ， 那 么 可 以 得 到 如 下 结果 。 


全 文 文 搜 搜索 索引 引擎 


N-gram 分 割 法 作为 一 种 不 依赖 具体 语言 的 句子 分 割 方法 ， 广 泛 应 用 于 
以 亚洲 国家 的 语言 为 主 的 各 种 语言 中 。 


另外 ， 在 英文 中 将 分 割 句 子 这 种 行为 称 为 Segmentation 或 

Tokenization。 严 格 地 来 讲 这 两 个 词 的 含义 并 不 相同 ， 但 是 在 有 关 倒 排 
索引 的 上 下 文中 ， 人 们 似乎 并 不 怎么 在 使 用 上 对 它们 加 以 区 分 。 句 子 分 
制 后 产生 的 一 个 个 单词 则 称 为 词 元 “Token) 或 词 项 (Term) 。 


权衡 分 割 方法 


上 述 两 种 方法 都 可 以 将 句子 分 割 成 词 元 ， 由 这 两 种 词 元 构成 的 倒 排 索引 
各 有 各 的 优 缺 点 。 


1 由 词 隶 构成 的 倒 排 索 引 的 优 缺 点 


与 由 N-gram 构成 的 倒 排 索引 相 比 ， 由 词素 构成 的 倒 排 索引 由 于 从 文中 
分 割 出 的 词 元 数 更 少 ， 所 以 词典 和 倒 排 文件 的 矿 才 也 就 更 小 。 由 此 融 产 
生 了 高 速 进行 构建 处 理 和 搜索 处 理 的 可 能 性 。 


不 过 这 种 倒 排 索 引 也 存在 缺点 ， 即 会 发 生 所 谓 的 “检索 遗漏 ?问题 。 检 索 
壮 漏 指 的 是 ， 尽 管 查 询 实际 就 包含 在 文档 中 ， 但 就 是 找 不 到 与 查询 相 匹 
配 的 内 容 。 这 是 由 碍 询 与 通过 词素 解析 从 文中 分 割 出 的 词素 不 一 致 导致 
的 。 例 如 ， 将 “ 哆 哆 喧 呆 ” 分 割 成 词 系 后 还 是 “ 哆 哆 嗓 唆 >?， 可 如 果 检 索 的 
是 “ 哆 嗓 ”， 就 无 法 检索 到 包含 “ 哆 哆 哄 唆 ”的 文档 了。 那些 尚未 收录 在 词 
素 解 析 词 典 中 的 新 词 和 以 口语 方式 使 用 的 单词 也 都 面临 同样 的 问题 。 





























1 由 N-gram 构成 的 倒 排 索 引 的 优 缺 点 


与 由 词素 构成 的 倒 排 索引 不 同 ， 由 N-gram 构成 的 倒 排 索引 不 会 产生 检 
索 遗 漏 问 题 。 也 就 是 说 ， 在 由 N-gram 构成 的 倒 排 索引 中 ， 基 本 上 只 要 
查询 包含 在 文档 中 ， 就 一 定 能 找 得 到 4。 


i N 个 字符 的 字符 串 ， 通 常 需要 事先 制作 由 M-gram CM < N) 构成 的 倒 排 
索引 。 

















但 是 ， 从 刚刚 的 “全 文 搜索 引 敬 ”的 例子 中 也 能 看 出 来 ， 相 比 于 词素 解 

析 ， 在 同一 个 文档 中 使 用 N-gram 产生 的 词 元 通常 较 多 。 因 此 ， 词 典 和 
倒 排 文件 的 尺寸 自然 也 就 更 大 ， 从 而 导致 构 建 处 理 和 搜索 处 理 的 速度 下 
降 。 而 且 ， 由 于 N-gram 并 不 考虑 单词 的 界限 ， 所 以 在 由 N-gram 构成 

人 
的 问题 。 


在 开发 搜索 引擎 的 过 程 中 ， 重 要 的 是 根据 文档 的 特性 灵活 运用 这 两 种 分 
割 方法 。 为 了 体现 出 运用 上 的 灵活 性 ， 我 们 需要 设计 出 不 依赖 句子 分 割 
方法 的 搜索 引擎 。 例 如 ， 可 以 不 以 从 文档 的 开头 数 是 第 几 个 词 元 为 基 
础 ， 而 古 以 从 文档 的 开头 数 是 第 几 个 字符 为 基础 来 构建 倒 排 项 。 





1-5 实现 倒 排 索引 


至 此 为 止 ， 我 们 已 经 逐渐 了 解 了 倒 排 索引 的 馆 辑 结构 。 下 面 ， 就 让 我 们 
再 来 了 解 一 下 倒 排 索引 的 具体 实现 吧 。 


实现 词典 
在 实现 词典 时 ， 为 了 能 够 快速 地 获取 到 对 应 着 单 词 的 倒 排 列表 ， 通 音 都 


会 使 用 哈 希 表 、 树 等 数据 结构 。 例 如 ， 第 用 的 树 形 数 据 结构 有 保存 着 各 
个 单词 顺序 关系 的 二 又 查找 树 (Binary Search Tree) 和 字典 树 〈Trie) 
等 








1 用 二 又 碍 找 树 实 现 词典 


使 用 二 又 碍 找 树 实现 词 典 时 ， 要 先 将 数据 对 《的 列表 ) 按照 单词 的 词典 
顺序 排列 ， 然 后 存储 到 存储 器 中 。 数 据 对 是 由 单词 和 对 应 着 该 单词 的 倒 
排列 表 的 引用 信息 构成 的 。 例 如 ， 知 用 内 存 上 的 二 又 碍 找 树 实现 之 前 例 
子 中 的 词典 ， 残 会 得 到 如 图 1-3 所 示 的 树 形 结构 。 树 中 的 各 个 结 点 是 通 
过 地 址 引用 《指针 ) 连接 起 来 的 。 





In ref 
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Te 
图 1-3 在 内 存 上 实现 词典 (使 用 二 叉 查 找 树 ) 


同样 地 ， 在 二 级 存储 上 实现 词典 时 ， 也 要 先 将 数据 对 按照 单词 的 词典 顺 
序 排列 ， 然 后 一 个 接 一 个 地 存储 到 存储 器 上 。 但 是 ， 如 果 只 是 单纯 地 一 
个 接 一 个 地 存储 ， 束 无 法 知道 各 数据 对 应 该 在 哪里 结束 了 ， 因 此 在 此 之 
上 还 要 维护 一 个 列表 ， 用 于 存储 从 开头 算 起 每 个 数据 对 的 俩 移 量 。 对 应 
人 
二 分 合 找 。 

















none [ror| Googe [ier] 1 [ror] ~ | sooron [er| 





对 该 列表 进行 二 分 查找 


图 1-4 在 二 级 存储 器 上 实现 词典 《使 用 二 又 查找 树 ) 


如 果 词 典 能 够 完整 地 加 载 到 内 存 ， 那 么 所 形成 的 二 又 树 的 搜索 效率 将 会 
非常 局。 特别 是 当 二 又 树 处 于 平衡 状态 时 ， 平 均 进 行 1og>N 次 查找 就 能 
找到 单词 。 


但 是 ， 如 果 词 典 无 法 完整 地 加 载 到 内 存 ， 而 必须 存储 到 二 级 存储 器 上 
时 ， 二 又 树 就 未 必 是 高 效 的 数据 结构 了 。HDD 或 SSD 等 二 级 存储 右 一 
般 被 称 作 “ 抉 设备 ”， 由 于 它们 是 以 块 为 单位 进行 输入 输出 的 ?3， 所 以 即 
使 只 是 读 取 块 中 1 个 字 节 的 数据 ， 也 不 得 不 对 整个 块 进行 输入 输出 操 
作 。 例 如 ， 假 设 我 们 用 三 又 查 找 树 实现 了 含有 100 万 个 单词 的 词典 ， 那 
么 进行 二 分 查找 的 话 ， 平 均 需 要 20 次 查找 ， 因 此 在 最 坏 的 情况 下 就 需 
要 加 载 20 个 块 。 也 就 是 说 ， 假 设 二 级 存储 的 加 载 性 能 为 5ms/ 块 ， 那 么 
在 1 次 检索 中 ， 仅 花费 在 二 级 存储 输入 输出 上 的 时 间 就 高 达 100ms。 


5HDD 的 最 小 输入 输出 单位 是 512 字 节 的 扇 区 。 文 件 系统 通常 以 页 为 单位 来 管理 存储 空间 〈 空 
间 大 小 是 设备 块 大 小 的 常数 倍 ) ， 并 以 页 为 单位 进行 输入 输出 。Linux 通常 以 4KB 为 一 页 。 


















































nt ， 往 往 要 使 用 适合 块 设备 的 B+ 树 等 树 形 数 
岳 结 构 。 


1 用 B+ 树 实现 词典 


B+ 树 是 一 种 平衡 的 多 广 树 ， 属 于 从 B 树 派 生出 来 的 树 形 结构 。 在 B+ 
树 中 ， 所 有 的 记录 都 存储 在 树 中 的 叶 结 点 (Leaf Node) 上 ， 内 部 结 点 

(Internal Node) 上 只 以 关键 字 的 顺序 存储 关键 字 6。B+ 树 的 示意 图 如 
图 1-5 所 示 。 




















6 由 于 在 数据 库 管理 系统 中 B+ 树 用 得 非常 普遍 ， 所 以 也 经 常 可 以 遇 到 虽然 说 的 是 B 树 ， 但 实 
际 上 指 的 是 B+ 树 的 情景 。 
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图 1-5 在 二 级 存储 器 上 实现 词典 《使 用 B+ 树 ) 

B+ 树 通 利 以 文件 系统 中 页 矿 寸 的 常数 倍 为 单位 管理 各 结 点 ， 而 由 这 样 
的 结 点 来 构成 树 ， 则 有 助 于 减少 检索 时 对 二 级 存储 的 输入 输出 次 数 〈 详 
细 内 容 请 参考 书后 的 参考 文献 1) 。 


下 面 就 让 我 们 用 B+ 树 来 实现 之 前 的 包含 了 100 万 个 单词 的 词典 吧 。 候 
设 有 以 下 设 定 。 


。 块 大 小 : 4KB 











。 页 大 小 : 4KB 
。 单词 的 平均 大 小 : 10 字 贡 
。 页 内 偏 移 量 的 大 小 : 2 字 节 “ 


。 指 向 下 一 级 结 点 的 指针 的 大 小 : 4 字 节 























“由 于 单词 的 长 度 不 是 固定 的 ， 所 以 为 了 指示 出 每 个 单词 在 页 中 的 保存 位 置 ， 通 常 还 要 维护 一 
个 侦 移 量 的 数组 。 


























基于 这 种 假设 ， 可 以 算出 每 个 单词 将 占用 页 中 16 个 字 节 的 空间 ， 因 此 





每 页 中 可 以 存放 大 约 250 个 关键 词 (单词 ) 8。 由 于 页 中 的 每 个 单词 都 
持 有 一 个 指 癌 下 级 结 点 的 指针 ， 下 级 结 点 中 存储 的 是 按照 词典 顺序 排 在 
该 单词 之 前 〈 后 ) 的 单词 集合 ， 所 以 可 以 推算 出 要 存储 100 万 个 单词 只 
需要 3 层 结 点 就 足够 了 〈100 万 二 250x 250x250 三 约 1500 万 ) 。 也 就 
是 说 ， 只 要 从 二 级 存储 中 读 取 3 个 结 点 ， 就 可 以 检索 到 任意 的 单词 了 。 
假设 二 级 存储 的 加 载 性 能 还 是 5ms/ 块 ， 那 么 花 在 检索 上 的 输入 输出 时 
间 就 是 15ms， 这 与 花费 在 二 叉 查 找 树 检索 上 的 100ms 的 输入 输出 时 间 
形成 了 鲜明 的 对 比 。 

















8 为 了 估算 输入 输出 的 次 数 ， 这 里 仅 进行 了 非常 粗略 地 计算 。 实 际 上 每 一 页 中 还 包含 着 用 于 管 
理 该 页 信息 的 头 部 ， 而 且 如 果 一 页 中 有 六 个 单词 的 话 ， 就 还 会 有 N 十 1 个 指针 。 


实现 倒 排 文件 


在 实现 倒 排 文件 时 ， 往 往 会 假设 所 有 倒 排列 表 都 会 变 得 很 长 ， 因 此 一 般 
都 会 将 倒 排 列表 存储 到 二 级 存储 的 连续 区 域 中 ?。 由 此 就 可 以 通过 二 级 
存储 的 顺序 存 取 来 加 载 倒 排列 表 了 ， 特 别 是 在 使 用 磁盘 驱动 费时 ， 这 种 
和 
1-6 所 不 。 



























































9 在 通过 文件 系统 存储 倒 排 列表 时 ， 也 可 能 会 遇 到 文件 系统 无 法 为 其 预 留连 续 存 储 空间 的 情 
况 ， 此 时 就 只 能 将 倒 排 列表 分 段 存储 到 多 块 存储 空间 上 了 。 等 诸位 读 到 了 附录 部 分 的 动态 索引 
构建 时 ， 就 能 看 到 我 们 是 如 何 允 许 并 利用 倒 排 列表 的 分 段 存储 来 努力 提升 构建 索引 性 能 的 了 。 






































二 级 存储 器 


图 1-6 实现 倒 排 文件 

1 倒 排 列表 的 物理 布局 

单词 级 别 的 倒 排 列表 由 以 下 两 个 要 素 构成 。 
。 文档 编号 (DocID) 
。 文档 中 的 偏 移 列表 (offl、off2...) 


除 此 以 外 ， 各 单词 在 各 文档 中 的 出 现 次 数 一 般 也 会 同时 保存 。 这 个 次 数 
叫 作 TF (Term Frequency， 词 频 ) ， 常 用 于 计算 检索 结果 的 排名 等 。 

在 实现 倒 排 列表 时 ， 大 多 数 情况 下 要 将 这 些 数值 以 二 进 制 形式 、 按 照 如 
下 所 示 的 布局 存储 为 二 级 存储 器 上 的 文本 (其 中 的 “,” 是 为 了 区 分 各 个 数 
据 项 而 额外 加 上 的 ) 。 男 外 ， 为 了 进行 高 效 的 检索 处 理 ， 通 常 还 要 先 将 
文档 编号 和 偏 移 量 按 升 序 排列 后 再 存储 。 

DocID,IEFE,off1l,off2,off3 


此 时 ， 对 于 之 前 例子 中 对 应 着 search 的 倒 排 列表 (D1;3,D2;2)， 就 可 以 























用 如 下 的 整数 数列 表示 。 
1,1,3,2,1,2 


奉 每 个 整数 都 使 用 4 个 字 节 表示 ， 那 么 该 整数 数列 将 占用 24 个 字 市 的 
二 级 存储 空间 。 男 外 ， 在 文档 级 别 的 倒 排 列表 中 ， 一 般 会 采用 只 列 出 文 
档 编 号 的 布局 。 


1 压缩 倒 排列 表 


在 检索 处 理 中 ， 由 于 从 二 级 存储 此 中 读 取 倒 排 列表 经 常会 占据 大 部 分 的 
检索 处 理 时 间 ， 所 以 在 大 多 数 情 况 下 都 会 保存 经 过 压缩 的 倒 排 列表 来 缩 
短 加 载 时 间 。 有 关 压 缩 方法 我 们 将 在 第 5 章 详 细 讲解 。 由 于 倒 排列 表 一 
般 都 是 整数 数列 ， 所 以 通常 会 采用 适合 整数 数列 的 压缩 方法 。 


1-6 ”使 用 倒 排 索引 进行 检索 
前 面 我 们 已 经 了 解 了 由 索引 管理 器 管理 的 倒 排 索引 的 结构 以 及 具体 的 实 
现 方 法 。 下 面 ， 就 让 我 们 再 来 了 解 一 下 在 索引 检索 器 上 使 用 倒 排 索引 进 
行 检索 的 方法 吧 。 
布尔 检索 
在 1-2 节 ， 我 们 提 到 了 如 何 从 倒 排 索引 中 查找 出 同时 包含 多 个 单词 的 文 
档 ， 即 先 获 取 与 各 单词 相对 应 的 倒 排列 表 ， 然 后 用 AND 运算 符 计 算出 
其 中 包含 的 文档 编号 的 交集 。 
使 用 由 多 个 单词 通过 逻辑 运算 符 连 接 而 成 的 查询 进行 检索 ， 称 为 “布尔 
检索 ? (Boolean Retrieval) 。 人 逻辑 运算 符 (Boolean Operator) 有 
AND、OR、NOT 等 ， 其 含义 分 别 如 下 所 示 。 

。 AND : 两 边 的 单词 都 要 包含 (人 逻辑 与 ) 

。 OR : 包含 任意 一 边 的 单词 即 可 《逻辑 或 ) 

。 NOT : 不 包含 茶 个 单词 〈 馆 辑 非 ) 


另外 ， 我 们 通 癌 将 “如 何 进行 检索 ?这样 的 机 制 称 为 检索 模型 ， 因 此 执行 
布尔 检索 的 检索 模型 就 叫 作 布尔 模型 。 


使 用 倒 排 索 引 的 检索 处 理 流 程 

一 般 来 说 ， 使 用 倒 排 索引 的 检索 处 理 流程 如 下 所 示 。 
中 获取 但 询 中 每 个 单词 的 倒 排 列表 

@ 根据 布尔 检索 ， 获 取 符 合 检索 条 件 的 文档 编号 
(3)' 计算 符合 检索 条 件 的 文档 和 查询 的 匹配 度 

(3)" 获取 对 检索 结果 进行 排序 时 使 用 的 属性 值 














由 根据 匹配 度 或 用 于 排序 的 属性 值 ， 获 取 前 k 个 文档 

另外， 虽然 在 第 只 步 中 使 用 了 “每 个 单词 * 这 一 表述 ， 但 是 要 说 得 严谨 一 
些 的 话 ， 应 该 是 处 理由 单词 或 字符 连接 而 成 的 每 个 短语 〈Phrase) 。 虽 
然 在 此 后 的 讲解 中 还 是 使 用 “单词 * 这 一 表述 ， 但 是 请 诸位 根据 实际 情况 
进行 解读 。 

代码 清单 1-1 中 列 出 了 上 述 流 程 的 盆 代 码 。 

代码 清单 1-1 使 用 倒 排 索引 的 检索 处 理 








Q = Query // copied 
// sort Q by the length of each word's posting list 
word < shift Q 
posting list = fetchList(word) @ 
for all word € Q do 
posting list2 «< fetchList(word) @ 
posting list «< Intersect(posting list, posting list2) @ 
end for 
array < newArray() @〔( 以 下 8 行 ) 
for all posting € posting list do 
elem < newElement() 
elem.val «< calcRelevancy(Query, posting) 
//elem.val «< getAttribute(posting) 
elem.ref <* posting.doc ref 
push array, elem 
end for 
// Identify the top-k elem.val and return the corresponding documents. @ 





假设 在 这 段 伪 代码 中 ， 我 们 处 理 的 是 由 各 单词 通过 AND 连接 而 成 的 布 
尔 查 询 〈 单 词 1 AND 单词 2 AND ... 单词 N) 。 


首先 ， 根 据 各 自 倒 排列 表 长 度 的 升序 ， 对 查询 中 的 单词 进行 排序 。 之 所 
以 这 科 做 是 为 了 在 于 多 个 倒 排 列表 丙 丙 计算 交集 的 时 候 ， 尺 可 能 地 减少 
比较 的 次 数 。 


接 下 来 ， 从 碍 询 中 取出 最 前 面 的 单词 ， 获 取 与 之 对 应 的 《最短 的 ) 倒 排 
列表 (@) 。 


然后 ， 依 次 计算 该 倒 排 列表 与 查询 中 剩余 单词 的 倒 排 列表 的 交集 ， 了 最 终 
生成 包含 全 部 单词 的 倒 排 列表 (人 @) 。 接 下 来 ， 计 算 刚 生成 的 倒 排列 表 














中 的 各 文档 与 查询 的 关联 度 。 此 时 ， 知 还 需要 根据 日 期 等 属性 值 而 非 关 
人 
(人 名) 。 


最 后 ， 在 按照 关联 度 和 属性 值 对 检索 结 采 进行 排序 后 ， 取 出 检索 结果 中 
的 前 k 个 文档 (@) ”。 在 取出 结果 的 时 候 ， 能 将 所 有 结果 都 提供 给 用 
es 

入 优质 结 栗 ” 


本 需 对 整个 检索 结果 排序 ， 而 是 仅 对 前 k 条 结果 排序 即 可 的 话 ， 可 以 利用 堆 结构 进行 高 速 
了 。 




































































男 外 ， 关 查询 是 由 短语 构成 的 ， 则 还 需要 在 第 @ 步 进行 查找 短语 的 处 
理 ， 具 体 的 方法 我 们 在 1-3 节 中 介绍 过 。 由 于 篇 幅 有 限 ， 此 处 仅仅 列 出 
了 有 关 AND 得 询 的 伪 代 码 ， 对 于 其 他 的 布尔 操作 符 ， 也 可 以 用 与 此 大 
致 相同 的 流程 进行 处 理 。 


关联 度 的 计算 方法 


在 Web 搜索 引擎 中 ， 一 般 是 按照 文档 与 查询 的 关联 度 对 检索 结果 进行 
排序 的 。 计 算 关 联 度 的 方法 有 余弦 相似 度 (Cosine Similarity) 和 Okapi 
BM25 等 。 


在 计算 余弦 相似 度 时 ， 需 要 把 文档 和 查询 映射 到 以 单词 (Term〉 为 维度 
的 问 量 空间 上 ， 文 档 向 量 和 查询 癌 量 的 来 角 内 积 ) 越 小 ， 说 明文 档 和 
碍 询 的 关联 度 越 高 。 

而 Okapi BM25 则 是 基于 “文档 是 否 匹 配 碍 询 是 由 概率 决定 的 ”这 一 统计 
原理 ， 根 据 单词 的 出 现 频率 等 因 系 计 算出 查询 与 文档 相关 联 的 概率 ， 这 
个 概率 越 大 ， 说 明文 要 和 碍 询 的 关联 度 越 高 。 


关于 这 些 方法 就 先 简 单 介绍 到 这 里 ， 有 兴趣 的 读者 可 以 参照 书后 的 参考 
文献 2、3。 


这 息 检索 中 的 检索 


在 被 称 为 信息 检索 的 全 文 搜索 学 术 领 域 中 ， 由 于 其 原本 的 目的 就 是 找 出 
与 信息 需求 相 匹配 的 文档 ， 因 此 可 以 认为 匹配 的 文档 中 没有 必要 包含 奉 



































询 。 也 就 是 说 ， 在 检索 处 理 中 ， 文 档 是 否 包含 但 询 无 关 紧 要 ， 重 要 的 是 
通过 计算 查询 和 整个 文档 的 关联 度 ， 把 关联 度 蝇 的 文档 作为 检索 结果 。 


i 


代码 清单 1-2 检索 时 只 考量 了 文档 和 碍 询 的 关联 度 











// Calculate word vector Vq,w for each word w in Query 
for all d € Documents do 
Sd<0 


for all word € Query do 
Calculate document vector Vd,w 
Sd<e< Sd Vgqw . Vd,w // calculate the inner product of the two 


vectors 
end for 
Wd < getDocumentLength(d) 
Sd «< Sd/Wd // normalize the score 
end for 
// Identify the k greatest Sd values and return the corresponding documents 





在 该 方法 中 ， 因 为 要 计算 的 是 所 有 文档 和 得 询 的 关联 度 ， 所 以 作为 检索 
对 象 的 文档 越 多 ， 检 索 处 理 的 成 本 束 越 高 。 


与 此 相对 ， 知 是 先 将 检索 对 象限 定 为 至 少 包 含 1 个 查询 中 的 单词 的 文 
档 ， 再 计算 关联 度 的 话 ， 就 可 以 降低 检索 处 理 的 成 本 了 。 这 种 情况 下 的 
检索 处 理 伪 代码 如 代码 清单 1-3 所 示 。 


ee 
关联 度 





// ALlocate an accumulator Ad for each document d and set Ad < 6 
for all word € Query do 
// Calculate word vector Vgq,w 
posting list «< fetchList(word) 
for all (d, freq) E posting list do 
// Calculate document vector Vd,w 
Ad < Ad 十 VvVqw'. Vd,w // calculate the inner product of the two 
vectors 
end for 
end for 


Wd < getDocumentLength(d) 
Ad < Ad/Wd for each Ad // normalized the score 
// Identify the k greatest Ad values and return the corresponding documents 


由 此 可 见 ， 在 搜索 引擎 中 各 种 各 样 的 方法 都 可 用 于 检索 处 理 。 而 搜索 引 
擎 的 开发 者 则 需要 根据 作为 检索 对 象 的 文档 的 性 质 和 检索 应 用 程序 的 用 


途 ， 适 当地 选择 这 些 方法 。 


1-7 构建 倒 排 索引 


前 面 我 们 已 经 了 解 了 由 索引 管理 露 管 理 的 倒 排 索引 的 结构 以 及 在 索引 检 
索 髓 上 进行 检索 处 理 的 流程 。 下 面 ， 惑 让 我 们 再 来 看 一 下 如 何在 索引 构 
建 各 上 构建 倒 排 索引 吧 。 


使 用 内 存 构 建 倒 排 索引 


生成 了 与 文档 编号 对 应 的 单词 表 后 对 该 表 进 行 倒 排 ， 在 1-2 节 我 们 通过 
这 种 方法 生成 了 倒 排 索引 。 知 让 计算 机 来 处 理 的 话 也 是 如 此 ， 先 在 内 存 
上 生成 与 文档 编号 对 应 的 单词 表 〈 二 维 数组 ) ， 然 后 用 相同 的 方法 倒 排 
该 表 ， 就 可 以 构建 出 倒 排 索 引 了。 但 是 ， 由 于 大 多 数 情况 下 倒 排 索 引 都 
古 非 党 黎 踊 的 表 ， 因 此 这 种 构建 方法 可 能 会 消耗 大 量 的 内 存 。 


于 是 就 有 了 用 链表 实现 倒 排 列表 这 一 优化 方法 。 相 比 之 下 ， 该 方法 内需 
少量 的 内 存 就 可 以 构建 出 倒 排 索引 。 


使 用 二 级 存储 构建 倒 排 索引 


在 今天 的 硬件 环境 下 不 乏 装 配 有 大 量 内 存 的 计算 机 ， 尽 管 如 此 ， 在 很 多 
情况 下 还 是 需要 处 理 超 过 实际 内 存量 的 大 规模 文档 。 遇 到 这 种 情况 时 ， 
可 以 利用 三 级 存储 来 构建 索引 。 作 为 利用 二 级 存储 构建 尝 引 的 代表 性 方 
法 ， 本 书 将 会 介绍 “基于 排序 的 构建 方法 ”和 “基于 合并 的 构建 方法 ”。 为 
了 使 文章 简明 扼要 ， 下 面 只 介绍 如 何 构 建文 档 级 别 的 倒 排 文件 ， 但 是 其 
中 步 又 也 适用 于 构建 单词 级 别 的 倒 排 文件 。 


1 基于 排序 的 索引 构建 法 

基于 排序 的 索引 构建 法 是 一 种 将 由 单词 和 倒 排 项 组 成 的 二 元 组 写 入 

二 级 存储 ， 并 以 单词 的 词典 顺序 对 这 些 二 元 组 排序 ， 以 此 来 构建 倒 排 索 
引 中 的 倒 排 列表 的 方法 。 有 具体 的 构建 程序 如 代码 清单 1-4 的 伪 代 码 所 
外。 


首先 ， 对 各 文档 中 构成 该 文档 的 每 个 单词 都 建立 一 条 形 如 “单词 、 文 档 
编号 、 单 词 在 文档 中 的 出 现 次 数 CTF) ”的 记录 ， 然 后 将 该 记录 写 入 到 












































二 级 存储 上 的 文件 的 末尾 (@) 。 


接 下 来 ， 将 文件 中 的 各 条 记录 优先 按照 单词 的 升序 排列 ， 单 词 字段 相同 
的 记录 需 再 按照 文档 编号 的 升序 排列 (@) 1。 


了 1 这 时 的 排序 方法 通常 会 选择 合并 排序 ， 例 如 像 下 面 这 样 做 ， 首 先 以 块 的 整数 倍 为 单位 将 多 条 
记录 加 载 到 内 存 中， 然后 对 这 些 记录 进行 快速 排序 并 将 排序 后 的 记录 导出 到 文件 中 ， 最 后 利用 
多 路 合并 排序 将 多 个 导出 的 文件 合并 在 一 起 。 





























最 后 ， 从 第 一 行 开 始 逐 行 地 读 取 排序 后 的 文件 ， 取 出 每 个 单词 的 文档 编 
号 的 列表 ， 并 用 这 些 列表 构建 出 各 个 沾 词 的 倒 排列 表 (@)〉。 此外， 不 
缩 倒 排 列表 的 操作 也 是 在 全 的 步 又 中 进行 。 


代码 清单 1-4 基于 排序 的 索引 构建 法 





file < newFile() 
while all documents have not been processed do 
d < getDocument() 
for all wordE d do @ (以 下 3 行 ) 
appendToFile(file, word, d.docID, count(d, word)) 
end for 


end while 


externalSort(file) @ 

inverted file < newFile() 

for all r E file do @ (以 下 4 行 ) 
posting <* constructPpostingList(r.docID, r.freq) 
add(inverted file, r.word, posting) 

end for 














图 1-7 是 基于 排序 的 索引 构建 处 理 的 示意 图 。 
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<Vord1, DocliD1, Fren11> 
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图 17 基于 排序 的 索引 构建 法 
1 基于 合并 的 索引 构建 法 


基于 合并 的 索引 构建 法 是 一 种 先 在 内 存 上 构建 出 倒 排 索引 的 片段 ， 然 后 
将 这 些 片 段 导 出 到 二 级 存储 ， 最 后 将 导出 的 多 个 倒 排 索引 片段 合并 在 一 
起 ， 以 此 来 构建 最 终 的 倒 排 索引 的 方法 。 有 具体 的 构建 程序 如 代码 清单 1- 
5 的 伪 代 码 所 示 。 


代码 清单 15 ”基于 合并 的 索引 构建 法 


n<0 
while all documents have not been processed do 
ncen 十 1 工 
filen < newFile() 
map < newMap() 
while free memory available do @ (以 下 11 行 ) 
d < getDocument() 
for all word E d do 
if word E map then @ (以 下 2 行 ) 
posting list «< newpostingList() 
else 
posting list «< getpostingList(map, word) 
end if 
add(posting list, d.docID) 
end for 
end while 
sorted map < sort(map) @ (以 下 2 行 ) 
writeToFile(filen, sorted map) 
end while 
filemerged < mergeFiles(filel1l, ... , filen) @ 








首先 ， 在 内 存 上 构建 出 以 单词 为 键 ， 以 倒 排列 表 为 值 的 映射 表 
(Mapping) ， 即 由 部 分 数据 构成 的 倒 排 索 引 的 片段 (@) 。 


ee 表 中 时 ， 都 要 将 该 单词 加 入 到 映射 表 中 
(@). 


当 映 射 表 的 大 小 (事先 已 设 定好 ) 达到 内 存 大 小 的 上 限时 ， 就 将 该 映射 
表 导 出 到 文件 中 (@)”。 























| 2 在 这 段 伪 代 码 中 ， 由 于 是 将 哈 希 表 用 作词 典 ， 所 以 要 在 导出 时 进行 排序 。 然 而 若 使 用 像 树 屠 
| 样 的 、 带 有 顺序 的 数据 结构 来 管理 词典 的 话 ， 就 可 以 省 略 排序 的 步骤 了 。 


像 这 样 反 复 处 理 ， 下 到 处 理 完 所 有 的 文档 ， 最 后 利用 多 路 合并 将 导出 的 
多 个 文件 合并 在 一 起 ， 构 建 出 最 终 的 倒 排 索引 (人 @) 。 男 外 ， 压 奖 倒 排 
列表 的 操作 也 是 在 @ 的 步骤 中 进行 。 
基于 归并 的 索引 构建 处 理 的 示意 图 如 图 1-8 所 示 。 

内 存 上 的 处 理 ee 二 级 存储 上 的 处 理 


















































图 1-8 基于 合并 的 索引 构建 法 

昌 然 本 节省 略 了 对 相关 算法 的 详细 分 析 ， 但 是 一 般 认 为 基于 合并 的 索引 
构建 法 拥有 更 高 的 效率 。 这 是 由 于 相对 于 基于 合并 的 方法 ， 基 于 排序 的 
方法 要 在 二 级 存储 上 进行 排序 ， 所 以 读 写 的 总 量 往往 会 增多 。 

静态 索引 构建 和 动态 索引 构建 


之 前 讲解 过 的 索引 构建 方法 都 是 对 输入 数据 进行 批量 构建 处 理 。 也 束 古 
说 ， 在 构建 处 理 完 成 之 后 索引 才能 用 于 检索 。 在 信息 检索 领域 中 ， 这 样 








的 构建 方法 被 称 为 “静态 构建 方法 ”(Offline Index Construction ) 。 关 态 
构建 方法 多 用 于 文档 集合 较 稳 定 ， 或 是 即使 文档 集合 发 生 了 变化 ， 在 变 
化 同步 到 索引 之 前 还 有 一 定时 间 等 场景 。 


与 此 相对 ， 还 有 一 种 “动态 构建 方法 ”(Online Index 
Construction/Dynamic Indexing) 。 这 种 方法 不 但 可 以 使 索引 结构 时 刻 处 
于 可 供 检 索 的 状态 ， 还 可 以 一 边 实 时 更 新 索引 ， 一 边 构建 索引 。 这 种 方 
法 多 用 于 信息 的 时 效 性 非常 重要 的 文档 ， 例 如 Web 上 的 新 闻 或 博客 中 
的 文章 等 。 在 书后 的 附录 部 分 中 我 们 将 会 详细 地 讲解 动态 构建 方法 。 














1-8 ”准备 要 检索 的 文档 


前 面 我 们 以 “ 想 要 进行 检索 的 数据 已 经 在 手边 了 ”为 前 提 ， 讲 解 了 搜索 引 

擎 的 结构 及 其 构成 要 系 。 但 是 ， 在 实际 中 这 些 数据 来 自 哪 里 呢 ? 在 本 章 

0 
吧 。 


收集 数据 
搜索 引擎 中 作为 检索 对 象 的 数据 来 自 哪 里 呢 ? 


一 种 情况 是 要 检索 的 数据 已 经 存在 了 。 有 时 是 大 量 的 数据 已 经 存在 于 企 
业 的 文件 服务 器 、 邮 件 服务 器 ， 或 每 个 人 的 PC 中 了 ; 有 时 是 运营 博客 
或 社会 化 书签 等 Web 应 用 程序 的 公司 ， 已 将 由 应 用 程序 的 用 户 添加 、 
更 新 的 信息 存 入 数据 库 等 系统 中 了 。 在 这 种 情况 下 ， 数 据 并 不 是 我 们 杀 
目 收 集 的 ， 而 是 目 然而 然 地 储存 起 来 的 。 


与 此 相对 ， 还 有 一 种 是 难以 亲自 收集 数据 的 情况 。 例 如 ， 在 Web 检索 
中 ， 要 借助 前 文 所 述 的 称 为 爬虫 的 软件 遍历 Web， 才 能 将 全 世界 的 
Web 网 页 收集 起 来 。 而 当 我 们 想 在 Twitter 外 使 用 Twitter 的 检索 服务 来 
收集 推 文 时 ， 还 要 利用 Twitter 的 API 等 。 


要 收集 的 数据 越 多 ， 收 集 、 和 存储 这 些 数据 的 机 制 就 越 复 杂 。 例 如 ， 在 需 
要 保存 大 量 数据 的 情况 下 ， 高 效 地 管理 存储 器 也 是 必 不 可 少 的 环节 。 为 
了 通过 Web 应 用 程序 保存 大 量 的 访问 记录 ， 应 用 程序 的 高 度 可 扩展 性 
就 显得 尤为 重要 。 而 且 ， 为 了 使 疏 虫 能 够 高 效 地 运转 起 来 ， 还 必须 设法 
优化 遍历 Web 的 算法 。 

由 于 这 些 都 不 是 针对 搜索 引擎 的 技术 ， 而 且 也 超过 了 本 书 的 讨论 范围 ， 
所 以 我 们 就 简单 介绍 到 这 里 。 但 是 如 果 要 开发 、 运 维 能 够 处 理 大 规模 数 
i 
难题 。 


数据 规范 化 
以 某 种 方法 收集 而 来 的 数据 只 有 经 过 处 理 才 能 成 为 适合 搜索 引擎 检索 的 














文档 。 例 如 、 由 疏 虫 收集 而 来 的 HIML 文件 除了 包含 内 容 还 包含 了 标 
签 等 标识 页 面 结构 的 信息 ;而 文件 服务 器 中 的 PDF 文件 存储 了 由 私有 
的 二 进 制 结构 表示 的 内 容 。 这 些 文件 都 包含 着 不 利于 检索 的 信息 ， 因 此 
要 将 它们 规范 为 只 包含 要 查询 的 文字 信息 或 文章 内 容 的 文档 。 例 如 ， 在 
规范 HIML 文件 时 ， 就 要 删除 标签 并 提取 出 作为 检索 对 象 的 文章 《和 内 
容 ) 。 


另外 ， 提 取出 来 的 文章 也 未 必 都 是 按照 规则 书写 的 。 例 如 ， 可 能 会 遇 到 
在 菏 篇 文章 中 使 用 的 是 全 角 的 数字 和 字母 ， 而 在 为 一 篇 文章 中 使 用 的 叉 
古 半角 的 数字 和 字母 这 种 情况 。 在 这 种 情况 下 ， 就 要 按照 菜 种 约定 好 的 
规则 例如 统一 使 用 半角 字符 来 使 文档 规范 化 。 相 应 地 ， 只 要 对 查询 
也 进行 了 同样 的 规范 化 ， 就 能 碍 找到 《匹配 到 ) 规范 化 之 前 无 法 找到 
(无 法 匹配 ) 的 文档 。 


因此 ， 大 多 数 提供 检 索 服 务 的 系统 都 会 先 转换 收集 而 来 的 数据 ， 使 其 格 
式 适 合作 为 搜索 引擎 的 输入 文档 。 


至 此 为 上 上， 有 关 搜 索引 擎 基本 概念 的 讲解 束 结 束 了 。 诸 位 壮 否 了 。 倒 排 
索引 是 一 种 非常 简单 的 结构 ， 因 此 理解 起 来 应 该 并 不 吃力 。 如 果 仅 仅 

征 “ 想 制作 一 个 检索 系统 ”， 那 么 以 目前 为 止 讲解 过 的 基础 知识 为 基础 ， 

并 借助 开源 的 搜索 引擎 咏 ， 应 该 就 可 以 在 较 短 的 时 间 内 将 其 实现 了 。 尺 
管 如 此 ， 但 如 果 一 味 地 利用 已 有 的 搜索 引擎 ， 可 能 就 很 难 深入 地 了 解 搜 
索引 擎 的 原理 ， 或 是 优化 现 有 的 搜索 引 敬 了。 那么 应 该 怎么 做 呢 ? 笔者 
认为 ， 动 手 制 作 一 个 简单 的 搜索 引擎 正 是 实现 这 些 目标 《能 够 制作 出 

来 、 深 入 了 解 原 理 、 能 够 进行 优化 ) 的 最 好 方法 。 基 于 这 种 想法 ， 从 第 
2 草 开 始 ， 就 让 我 们 一 边 通过 源 代码 从 内 部 柄 理 搜索 引擎 的 工作 流程 ， 

一 边 体验 搜索 引擎 的 开发 过 程 吧 。 请 诸位 一 定 要 一 边 实际 动手 做 ， 一 边 
更 加 深入 地 去 探索 搜索 引擎 的 结构 。 


了 从 使 用 了 Apache Lucene 或 Lucene 的 Solr 和 Elasticsearch， 到 笔者 (未 永 ) 也 参与 了 开发 的 
Groonga 和 Senna 等 ， 都 是 很 优秀 的 软件 。 














入 各- Ee va \ 埠 .人 
第 2 章 准备 全 文 搜索 引擎 的 检索 
在 本 书 中 ， 为 了 理解 搜索 引擎 的 核心 ， 我 们 开发 了 一 个 叫 作 wiser 的 、 
仅 实 现 了 最 基本 功能 的 全 文 搜 索引 擎 。 诸 位 可 以 从 下 面 的 地 址 下 载 
wiser 的 源 代码 。 

http://www.ituring.com.cn/book/1582( 点击“ 随 书 下 载 ”) 


在 第 2 章 中 ， 我 们 会 先 大 致 介绍 一 下 wiser 的 概要 ， 然 后 开始 着 手 搭 建 
wiser 的 运行 环境 。 


2-1 全 文 搜 索引 擎 wiser 
wiser 的 构成 
wiser 的 系统 构成 及 其 源 代码 的 目录 结构 如 图 2-1 所 示 。 下 面 ， 请 诸位 


Us 1 章 的 开头 部 分 讲解 过 的 搜索 引擎 的 构成 ， 一 边 来 看 下 面 
这 3 


令 索 系统 wiser 









中 索引 构建 器 
XML 文件 





postings.c 
twoken.c 


Wiser.c 
util.c 


图 2-1 全 文 搜索 引擎 wiser 的 构成 


wiser 中 所 有 的 处 理 过 程 都 是 从 wiser.c 开始 的 。wiser.c 会 先 去 解析 命令 
行 的 参数 ， 然 后 根据 参数 调用 构建 索引 或 执行 检索 的 处 理 过 程 。 


“XML 解析 器 ”是 由 wikiload.c 实现 的 ， 负 责 从 Wikipedia 的 副本 中 提取 
文本 数据 形成 文档 ， 并 将 文档 储存 到 数据 库 中 。 


“索引 构建 器 ”是 由 postings.c 和 token.c 实现 的 ， 负 责 将 文本 文档 转换 为 


A、 


“索引 检索 器 "是 由 search.c、postings.c 和 token.c 共同 实现 的 ， 负 责 使 用 
倒 排 索引 进行 检索 处 理 。 


database.c 负责 借助 名 为 SQLitel 的 RDBMS (关系 型 数据 库 管理 系统 ) 











管理 文档 数据 和 索引 。 


lhttp://www.sqlite.org/ 
util.c 负责 提供 在 所 有 模块 中 都 会 用 到 的 通用 处 理 。 
准备 用 于 检索 的 文档 


正如 第 1 章 所 述 ， 收 集 大 量 的 数据 是 件 辛 苗 的 工作 ， 因 此 在 本 书 中 ， 我 
们 将 使 用 中 文 版 的 Wikipedia 作为 检索 对 象 。 诸 位 可 以 从 以 下 地 址 下 载 
包含 Wikipedia 中 所 有 词 条 的 压缩 文件 。 


http:/dumps.wikimedia.org/zhwiki/ 


堆 至 2015 年 7 月 ， 该 压缩 文件 的 大 小 约 为 1.1GB， 解 压缩 后 的 文件 大 
小 为 4.9GB。 要 检索 的 数据 量 对 于 grep 等 工具 来 说 确实 较 大 ， 但 是 又 没 
有 大 到 1 台 机 器 无 法 处 理 的 程度 ， 因 此 这 个 量 级 的 数据 对 于 wiser 来 说 


合适 。 
Wikipedia 的 词 条 是 由 如 下 所 示 的 工 个 巨大 的 XML 文件 构成 的 。 


<mediawiki> 
<page> 
<title> 词 条 的 标题 </title> 
<revision> 
<text><![CDATAT[ 
词 条 的 正文 
]]> 





</text> 
</revision> 
</page> 
<page> 


</page> 


</mediawiki> 





可 以 看 到 ， 每 一 个 词 条 都 包含 在 一 对 page 标签 中 。title 标签 中 的 内 容 是 
词 条 的 标题 ， 位 于 revision 标签 中 的 text 标签 中 的 内 容 是 词 条 的 正文 。 
在 本 书 中 ， 我 们 会 提取 各 个 词 条 的 标题 和 正文 ， 并 将 这 两 部 分 数据 视 为 


要 检索 的 文档 。 负 责 从 XML 文件 提取 词 条 的 wikiload.c 会 进行 如 下 的 
处 理 。 


。 根据 指定 的 路 径 打 开 XML 文件 

获取 <title> 标签 中 的 内 容 作 为 文档 的 标题 

获取 <text> 标签 中 的 内 容 作 为 文档 的 正文 

将 标题 和 正文 传 给 索 引 构 建 器 反复 执行 上 述 处 理 过 程 中 的 后 3 


在 本 间 中 ， 我 们 先 不 讲解 上 述 处 理 的 细节 。 具 体 的 处 理 过 程 请 参阅 附录 
A-2。 


2-2 ”安装 wiser 
构建 wiser 
下 面 我 们 讲解 在 Linux 发 行 版 CentOS 和 Debian (Ubuntu) ， 以 及 Mac 
OS X 上 安装 wiser 的 方法 。 为 了 构建 wiser， 我 们 需要 先 安 闭 sqlite 和 
expat 的 代码 库 。 另 外 ， 为 了 解压 缩 Wikipedia 的 副本 ， 我 们 还 需要 先 
安装 bzip2。 

2http://expat.sourceforge.net/ 


1 在 CentOS 上 安装 wiser 


在 CentOS 上 ， 我们 可 以 使 用 包 管 理工 具 yum 来 安装 构建 环境 及 wiser 
所 依赖 的 代码 库 。 


示例 


> yum install gcc sqlite sqlite-devel expat-devel bzip2 


1 在 Debian 上 安装 wiser 


在 Debian 上 ， 我 们 可 以 使 用 包 管 理工 具 aptitude 来 安装 构建 环境 及 
wiser 所 依赖 的 代码 库 。 


示例 


> aptitude install build-essential sqlite3 libsqlite3-dev 1Libexpat1-dev bzi 


1 在 MacOSX 上 安装 wiser 
在 Mac OS X 上 安装 wiser 时 ， 我 们 需要 先 安 装 Xcodes 作为 构建 环境 。 


3https://developer.apple.com/xcode/ 


然后 ， 使 用 称 为 Homebrew4 的 包 管 理工 具 来 安装 wiser 所 依赖 的 代码 
库 。 如 果 事 先 没 有 安装 bzip2， 接 下 来 还 需要 另行 安装 。 











4http:/mxcl.github.io/homebrew/ 


示例 


> brew install sqlite expat 


依赖 的 代码 库 都 装 好 后 ， 就 可 以 进入 到 wiser 的 源 代码 目录 了。 此 时 ， 
A ， make 命令 ， 即 可 在 当前 目录 中 生成 一 个 名 为 wiser 的 可 执 
行 六 1 二 





示例 


启动 wiser 
下 面 就 让 我 们 局 动 wiser 看 看 吧 。 
先 不 带 任何 参数 地 执行 一 次 ， 这 样 做 的 目的 是 确认 wiser 的 使 用 方法 。 


示例 





> wiser 
usage: ./wiser [options] db _ file 


options : 
-C Compress_method : Compress method for postings list 
-x Wikipedia dump _ xml : wikipedia dump xml] path for indexing 
-q search query : query for search 
-m max_index_count : max count for indexing document 
-t ii buffer update threshold : inverted index buffer merge threshold 
-S : don't use tokens' positions for search 


compress methods: 
none : don't compress. 
golomb : Golomb-Rice coding(default). 





可 以 看 到 wiser 支持 如 表 2-1 所 示 的 参数 。 


表 2-1 wiser 的 参数 












































的 缓冲 区 大 小 
































词 元 的 位 置信 息 ， 即 不 进行 短语 检索 








解压 缩 Wikipedia 的 副本 
诸位 可 以 从 下 面 的 URL 下 载 中 文 版 Wikipedia 的 最 新 副本 。 


http:/dumps.wikimedia.org/zhwikilatestzhwiki-latest-pages- 
articles.xml.bz2 


然后 ， 可 以 通过 bunzip2 命令 将 该 副本 解压 缩 。 


示例 


> bunzip2 -k zhwiki-latest-pages-articles.xml.bz2 


2-3 ”运行 wiser 

构建 倒 排 索引 

既然 Wiser 的 准备 工作 已 经 就 绪 了 ， 那么 接 下 来 束 让 我 们 号 入 Wikipedia 

a ， 开 始 构建 倒 排 索 引 吧 。 只 需 运 行 如 下 的 命令 ， 即 可 构建 出 倒 
索 纪 


5Wikipedia 的 副本 中 包含 繁体 中 文 的 词 条 。 一 一 译 者 注 








示例 


> ./wiser -x zhwiki-latest-pages-articles.xml -m 1666 Wikipedia 1666.db 


[time] 2615/11/64 62:35:31.0606665 
count :1 title: Wikipedia:Upload log 
count:2 title: Wikipedia: 删 除 记 录 / 档 案 馆 /2664 年 3 








count:3 title: 数学 
count :4 title: Help :目录 
count:5 title: 哲学 
count:6 title: 文学 




















在 上 面 的 例子 中 ， 我 们 通过 将 参数 -m 的 值 设 定 为 1000， 使 wiser 最 多 
就 加 载 1000 个 文档 。 之 所 以 暂时 控制 在 1000 个 文档 以 内 ， 是 因为 这 里 
我 们 只 想 确认 wiser 能 否 正常 运行 


另外 ， 在 运行 wiser 时 ， 还 需要 设 定 倒 排 索引 文件 的 文件 名 。 在 本 例 中 
使 用 的 文件 名 是 wikipedia_1000.db， 不 过 诸位 也 可 以 随意 命名 该 文件 。 


使 用 倒 排 索引 查询 
下 面 就 让 我 们 使 用 倒 排 索引 检索 一 下 “语言 > 这 个 单词 吧 。 
示例 








> ./wiser -q "语言 " wikipedia 1666.db 
[time] 2615/67/17 67:28:44.0060669 





document_ id: 64 title: Help: 跨 语言 链接 score: 99.842498 
document id: 83 title: 语言 列表 score: 64.532346 





document_id: 88 title: Help: 搜 索 score: 1.217591 
document id: 96 title: 中 国 score: 1.217591 

Total 43 documents are found! 

[time] 2615/67/17 67:28:45.660606608 (diff 8.631247) 








诸位 都 顺利 地 检索 出 结果 了 吗 ? 
索引 很 强大 吧 ， 借 助 索 引 ， 检 索 一 瞬间 就 返回 了 结 





从 命令 行 可 以 看 出 ， 要 想 进 行 检索 ， 就 需要 先 在 参数 -q 的 后 面 设 定 要 
查询 的 单词 ， 然 后 再 在 后 面 接 上 构建 索引 时 设 定 的 索引 文件 的 文件 名 。 
掌握 了 检索 方法 后 ， 可 以 试 着 再 检索 一 些 其 他 的 单词 。 

比较 grep 和 wiser 的 运行 速度 

通过 建立 倒 排 索引 ， 到 底 能 使 检索 时 间 缩 短 到 什么 程度 呢 ? 也 许 与 grep 
比较 一 下 就 能 知道 答案 了 。 为 了 能 在 相同 的 条 件 下 进行 比较 ， 我 们 需要 
先 制作 一 个 只 包含 1000 个 文档 的 XML 文件 。 


示例 





$ grep -m 1666 -n '</page>' zhwiki-latest-pages-articles.xml | tail -n 1 | 
cut -d ":" -f 1 | xargs -I LINE head -n LINE zhwiki-latest-pages-articles.x 


> 1666.xml 





上 上 述 命令 的 含义 是 先 用 grep 命令 从 XML 文件 中 科 选 出 含有 “</ 
page>” 的 前 1000 行 ， 然 后 通过 tail 和 cut 命令 获取 最 后 一 行 的 行 号 ， 接 
着 将 整个 XML 文件 中 从 第 1 行 到 这 一 行 的 数据 导出 到 指定 文件 中 。 

接 下 来 就 用 这 个 XML 文件 来 比较 一 下 grep 和 wiser 的 检索 速度 吧 。 


示例 。 











6 如 果 当 前 使 用 的 是 默认 的 Bash Shell， 并 且 想 得 到 示例 中 的 输出 格式 ， 那 么 可 以 执行 如 下 命令 
/usr/bin/time--format="%C %Us user %Ss system %P cpu WU total" grep "Wikipedia' 1000.xml， 即 











需要 执行 位 于 “/usr/bin/* 下 的 time 命令 ， 并 设 定 format 参数 。 有 关 百 分 号 后 字母 的 含义 ， 可 参 
阅 time 命令 的 手册 。 译 者 注 











> time grep 'Wikipedia' 1666.Xxml] 
grep 'Wikipedia' 1666.xml 6.56s User 6.61s System 76% cpu 68.664 total 


> time ./wiser -q 'Wikipedia' wikipedia 1666.db 


./wiser -q 'Wikipedia' wikipedia 1666.db 6.61s user 6.66s System 83% cpu 
0.6021 total 





wiser 的 检索 速度 真是 太 快 了 。 相 对 于 grep 花费 的 0.50 秒 ，wiser 仅仅 
用 了 0.01 秒 就 返回 了 检索 结果 。 而 且 ， 要 检索 的 文档 越 多 ， 二 者 在 检 
索 速 度 上 的 差距 就 越 明 显 。 





第 3 章 构建 倒 排 索引 


我 们 在 第 2 章 确 认 了 wiser 的 构成 和 运行 结果 。 现 在 进入 第 3 章 ， 终 于 
可 以 接触 到 搜索 引擎 的 核心 部 分 了 ， 即 倒 排 索引 的 实现 过 程 以 及 构建 倒 
排 索引 的 过 程 。 相 关 的 基础 知识 已 经 在 第 1 章 讲 解 过 了 ， 因 此 在 阅读 本 
章 时 若 有 疑问 ， 不 妨 回 过 头 去 读 读 第 1 间 。 男 外 ， 在 本 章 我 们 并 没有 对 
1 有 关 压 缩 处 理 的 讲解 和 实现 将 在 第 
5 章 中 进行 。 








3-1 复习 有 关 倒 排 索 引 的 知识 
提取 词 元 


既然 wiser 采用 的 索引 格式 是 倒 排 索 引 ， 我 们 就 先 来 简单 地 复习 一 下 构 
建 倒 排 索 引 的 步骤 吧 。 


。 从 作为 检索 对 象 的 文档 中 提取 出 词 元 及 其 出 现 的 位 置 


。 对 于 每 个 词 元 ， 将 其 所 在 文档 的 引用 信息 《文档 编号 ) 和 出 现在 
文档 中 的 位 置 保存 起 来 


以 上 就 是 构建 倒 排 索引 的 过 程 。 在 这 个 过 程 中 ， 我 们 还 需要 利用 N- 
gram 或 词素 解析 的 方法 将 句子 分 割 成 词 元 的 序列 。 


从 句子 中 分 割 出 词 元 的 处 理 看 似 简单 ， 但 是 在 处 理 中 文 时 ， 还 是 要 稍 加 
注意 才 行 。 之 所 以 这 样 说 是 因为 Wikipedia 的 词 条 都 是 用 UTF-8 的 字符 
编码 表示 的 ， 因 此 在 进行 处 理 时 ， 不 得 不 考虑 这 种 字符 编码 的 特性 。 
在 UTF-8 中 ， 是 用 1 到 4 个 字 节 的 长 度 来 表示 1 个 字符 的 。 例 如 ， 像 
数字 和 拉丁 字母 等 在 英文 中 使 用 的 字符 都 是 用 1 个 字 节 表示 的 ， 而 在 中 
文中 使 用 的 字符 则 多 半 要 用 3 个 字 节 才能 表示 。 因 此 ， 在 UTF-8 
0 0 0 0 
J\HYJ。 


68x57 6X65 Ox62 Oxe6 Oxa3 Ox80 Oxe7 Oxb4 Oxa2 


字 节 序列 和 各 个 字符 的 对 应 关系 如 图 3-1 所 示 。 


























图 3-1 在 UTF-8 中 ， 字 符 串 中 各 个 字符 对 应 的 字 市 序列 


在 wiser 中 ， 由 于 我 们 采用 了 N= 2 的 N-gram (bi-gram) 将 句子 分 割 
为 词 元 的 序列 ， 所 以 每 个 词 元 中 都 包含 2 个 字符 。 但 是 在 分 割 过 程 中 ， 
由 于 分 割 出 来 的 词 元 所 含有 的 字 节 数 并 不 固定 ， 所 以 还 必须 分 别 考 虑 
每 个 词 元 的 分 割 位 置 。 例 如 ， 由 于 刚刚 的 “Web 检索 ”中 既 有 天文 义 有 中 
文 ， 所 以 提取 出 的 词 元 会 分 别 出 现在 该 字符 串 中 第 0、1、2、3、6 字 市 
的 位 置 上 。 由 于 这 几 个 数 之 间 并 没有 固定 的 间隔 ， 所 以 不 能 简单 地 以 3 
个 字 市 为 蛙 位 分 制 全 于 


在 wiser 中 ， 为 了 避 开 由 使 用 UTF-8 带 来 的 处 理 上 的 麻烦 ， 我 们 在 每 次 
获取 N-gram 时 ， 都 会 先 将 字符 串 的 编码 从 UTF-8 转换 成 UTF-32。 
UTF-32 是 一 种 以 4 字 节 (32 bit) 的 数值 为 单位 表示 Unicode 字符 的 编 
码 方式 。 由 于 Unicode 的 字符 与 表示 该 字符 的 数值 是 一 一 对 应 的 ， 所 以 
在 UTF-32 中 ， 由 N-gram 分 割 而 成 的 词 元 所 含有 的 字 节 数 就 变 成 固定 
的 了 ， 这 样 就 简化 了 程序 上 的 处 理 过 程 !。 可 是 从 处 理 速 度 和 内 存 使 用 
量 的 角度 来 看 ， 一 般 认为 原封 不 动 地 使 用 UTF-8 处 理 的 效果 更 好 ， 但 
是 为 了 让 示例 程序 更 易于 理解 ， 还 是 请 允许 我 们 在 讲解 时 使 用 UTF-32 
吧 。 


















































LUnicode 中 含有 一 种 称 作 组 合 字符 (Combining Character) 的 特殊 字符 。 组 合 字符 包括 可 附着 
于 其 他 字符 之 上 的 符号 等 ， 作 用 是 与 已 有 的 字符 组 合 起 来 形成 1 个 新 的 字符 。 例 如 ， 在 

Unicode 中 ， 就 为 诸如 汉语 拼音 的 “i* 上 的 两 个 点 (分 音符 U+0308) 等 符号 分 配 了 单独 的 
码 。 这 就 造成 了 同一 个 字符 “ii 对 应 着 “0xc3 0xbc” 和 “0x00 0x75、0xcc 0x88” 两 个 编码 。 因 此 一 
旦 出 现 了 组 合 字 符 ，UTF-32 下 的 工 个 字符 就 不 再 只 对 应 于 1 个 编码 了 。 但 是 在 本 书 中 ， 我 们 
还 是 会 将 UTF-32 下 的 1 个 编码 视 作 1 个 字符 处 理 。 也 就 是 说 ， 忽 略 组 合 字 符 的 存在 。 
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在 wiser 中 ， 由 文件 token.c 中 的 函数 ngram_next( 负责 将 句子 分 割 成 词 
ok 


为 每 个 词 元 创建 倒 排 列表 


将 句子 分 割 成 词 元 以 后 ， 要 做 的 就 是 为 每 个 词 元 创建 倒 排 列表 。 正 如 第 
1 章 所 述 ， 倒 排列 表 要 么 是 关联 到 词 元 上 的 文档 编号 的 集合 ， 要 么 是 由 
文档 编号 和 词 元 在 文档 中 出 现 的 位 置 构成 的 二 元 组 的 集合 。 我 们 称 前 者 
为 文档 级 别 的 倒 排列 表 ， 后 者 为 单词 级 别 的 倒 排列 表 。 另 外 ， 将 由 所 有 
词 元 的 倒 排 列表 汇聚 而 成 的 集合 称 为 倒 排 文件 。 


在 wiser 中 ， 我 们 采用 的 是 单词 级 别 的 倒 排 列表 。 因 此 ， 正 如 第 1 间 所 
述 ， 这 意味 着 可 以 利用 wiser 进行 快速 的 短语 检索 。 


下 面 就 让 我 们 看 看 在 wiser 中 是 如 何 构建 倒 排 索引 的 吧 。 





3-2 ”构建 倒 排 索引 


在 存储 器 上 创建 倒 排列 表 


在 本 书 中 ， 由 于 用 作 样 本 数据 的 Wikipedia 的 文档 相对 较 大 ， 所 以 只 在 
内 存 上 为 所 有 文档 构建 倒 排 索引 并 不 现实 。 因 此 ， 用 wiser 构建 倒 排 索 
引 时 ， 我 们 还 要 使 用 硬盘 或 SSD 等 存储 器 (二 级 存储 器 〉。 


在 wiser 中 ， 我 们 将 采用 一 种 新 方法 构建 倒 排 索引 ， 该 方法 源 自 在 第 1 
章 中 讲解 过 的 基于 归并 的 构建 方法 。 大 致 描述 一 下 这 个 方法 的 话 ， 就 是 
对 于 茶 个 文档 集合 ， 先 在 内 存 上 为 其 建立 一 个 较 小 的 倒 排 索 引 ， 然 后 将 
这 个 较 小 的 倒 排 索引 和 存储 霹 上 的 倒 排 索引 合并 ， 通 过 反复 进行 这 两 步 
操作 ， 最 终 就 能 一 点 点 地 在 存储 圳 上 构建 出 较 大 的 倒 排 索引 了 。 


其 实 如 果 想 要 在 存储 器 上 创建 倒 排列 表 ， 最 直接 的 方法 就 是 不 断 地 将 倒 
排 项 《文档 编号 和 位 置信 息 ) 添加 到 存储 器 上 的 倒 排列 表 的 末尾 。 但 
是 ， 为 了 简化 将 在 第 5 章 中 讲解 的 压缩 倒 排列 表 的 过 程 ， 我 们 最 终 还 是 
采用 了 上 述 方法 。 


下 面 我 们 就 来 看 一 下 倒 排 索 引 的 数据 结构 与 构建 方法 吧 。 男 外 ， 在 本 书 
中 ， 我 们 将 在 内 存 上 构建 的 临时 倒 排 索引 称 为 “小 倒 排 索 引 ”。 


倒 排 列表 和 倒 排 文 件 的 数据 结构 


在 wiser 中 ， 倒 排列 表 是 使 用 结构 体 postings_list 来 管理 的 。 该 结构 体 
的 结构 如 下 所 示 ， 各 元 素 的 用 途 请 参考 变量 名 后 面 的 注释 。 


























/* 倒 排列 表 以 文档 编号 和 位 置信 息 为 元 素 的 链表 结构 ) */ 

typedef struct postings list { 
int document id; /* 文档 编号 */ 
UT_array *positions; /* 位 置信 息 的 数组 */ 
int positions count; /* 位 置信 息 的 条 数 */ 























struct _postings_list *next; /* 指向 下 一 个 倒 排 列表 的 指针 */ 
} postings_ list; 





男 外， 在 wiser 中 ， 我 们 还 使 用 了 名 为 utarray” 的 代码 库 来 处 理 数组 。 


在 utarray 中 ， 数 组 是 用 UT_array 类 型 的 指针 来 表示 的 。 


2http://troydhanson. github.io/uthash/utarray.html 


在 wiser 中 ， 倒 排 文件 是 使 用 另 一 个 结构 体 inverted_index_hash 来 管理 
的 。 该 结构 体 的 结构 如 下 所 示 。 乍 一 看 inverted_index_hash 类 型 不 过 是 
个 普通 的 结构 体 ， 但 它 实 际 上 是 个 关联 数组 ， 管 理 着 关联 到 词 元 编写 上 
的 倒 排 列表 。 该 关联 数组 的 结构 将 在 稍 后 讲解 。 








/* 倒 排 索引 以 词 元 编号 为 键 ， 以 倒 排 列表 为 值 的 关联 数组 ) */ 

typedef struct { 
int token id; 词 元 编号 (Token ID) */ 
postings_list *postings list; 指向 包含 该 词 元 的 倒 排列 表 的 指针 */ 

















int docs count; 出 现 过 该 词 元 的 文档 数 */ 
int positions count; 在 所 有 文档 中 该 词 元 的 出 现 次 数 之 和 */ 
UT_hash_handle hh; 用 于 管理 倒 排 列表 的 关联 数组 */ 


} inverted index hash, inverted index value; 


























虽然 一 边 过 历 倒 排列 表 的 链表 ， 一 边 计 数 也 能 统计 出 出 现 过 某 个 


词 元 的 文档 数 (docs_count) ， 但 是 铬 每 次 检索 时 都 要 统计 一 授 的 话 就 
会 影响 效率 。 因 此 ， 在 构建 索引 的 阶段 ， 我 们 要 先 将 统计 好 的 文档 数 存 
储 起 来 。 同 理 ， 还 要 将 词 元 的 出 现 次 数 (positions_count) 也 一 并 存储 
起 来 。 


在 结构 体 inverted_index_hash 中 还 存在 着 一 个 类 型 为 UT_hash_handle 的 
变量 hh， 用 于 将 结构 体 当 作 关 联 数组 来 处 理 。 在 wiser 中 ， 为 了 处 理 关 
联 数组 ， 会 使 用 名 为 uthash3 的 代码 库 ， 将 一 个 像 hh 那样 的 类 型 为 
UT_hash_handle 的 成 员 变 量 添 加 到 结构 体 的 定义 中 。 仅 需 如 此 ， 我 们 就 
可 以 像 处 理 关 联 数组 一 样 处 理 结 构 体 了 。 





3http://troydhanson. github.io/uthash/userguide.html 


不 过 可 能 有 这 样 一 点 不 太 好 理解 。 在 一 般 情 况 下 ， 关 联 数组 本 里 的 类 型 
和 存放 在 关联 数组 中 的 值 的 类 型 是 不 相同 的 。 但 是 ， 在 uthash 中 ， 二 者 
的 类 型 却 是 一 样 的 。 二 者 使 用 了 相同 的 类 型 会 导致 仅 赁 类 型 名 称 判断 不 
出 实际 上 要 处 理 的 对 象 是 什么 ， 因 为 一 个 关联 数组 的 类 型 既 可 以 表示 要 
处 理 的 是 整个 关联 数组 ， 也 可 以 表示 要 处 理 的 仅仅 是 关联 数组 中 的 一 个 


元 素 。 于 是 ， 我 们 通过 为 类 型 赋予 别名 使 二 者 有 所 区 别 ， 用 

inverted_index_hash 类 型 表示 整个 关联 数组 ， 用 该 类 型 的 别名 

inverted_index_value 表示 关联 数组 中 的 一 个 元 素 。 虽 然 有 些 复杂 ， 但 征 
这 些 都 是 为 了 使 用 uthash 处 理 关 联 数组 而 必须 遵守 的 约定 ， 因 此 在 这 
上 还 望 诸位 能 够 理解 。 

为 外 ， 虽然 在 第 1 半 就 讲 过 “ 倒 排 索引 是 由 词典 和 倒 排 文件 构成 的 "， 但 
是 在 实现 wiser 时 ， 我 们 并 没有 严格 地 区 分 二 者 。 在 wiser 中 ， 将 词 元 


及 其 编号 关联 起 来 的 数据 吉 构 充当 了 所 谓 的 词典 ，inverted_index_hash 
类 型 的 数据 结构 充当 了 倒 排 文件 。 


从 源 代码 级 别 梳理 倒 排 索引 的 构建 顺序 


下 面 ， 我 们 将 对 照 厦 源 代码 讲解 有 关 倒 排 索引 的 构建 顺序 。 将 在 本 章 讲 
解 的 函数 及 定义 了 该 函数 的 文件 如 表 3-1 所 示 。 


表 3-1 函数 名 和 定义 了 该 函数 的 文件 


create_new_inverted_index() 
create_ new_postings_list() 








merge_inverted_index() 


merge_postings() 


ngram_next() 


text_to_postings_lists() 


token_to_postings_list() 


update_postings() 


wiser_is_ignored_char() 





postings.c O 


mee 
om 
om 


om 
mee 


在 wiser 中 ， 我 们 首先 调用 了 函数 add_documentO0， 该 函数 的 作用 是 为 
文档 的 标题 和 正文 构建 倒 排 索引 以 及 用 于 存储 文档 的 数据 库 。 


在 函数 add_document() 内 部 会 进行 如 下 的 处 理 。 


Q 从 文档 中 取出 词 元 


轨 为 每 个 词 元 建立 倒 排列 表 ， 并 更 新 小 倒 排 索引 
G@) 每 当 小 倒 排 索引 增长 到 一 定 大 小 ， 束 将 其 与 存储 器 上 的 倒 排 索引 合 


= 


下 面 ， 我 们 就 梳理 一 下 函数 add_document( 的 内 部 。 





炒米 


* 将 文档 添加 到 数据 库 中 ， 建 立 倒 排 索引 


* @param[in] env 存储 着 应 月 

















子 运 行 环境 的 结构 体 


* @param[in] title 文档 的 标题 ， 为 NULL 时 将 会 清空 缓冲 区 


* @param[in] body 文档 正文 


*/ 


static void 





add document(wiser env *env, const char *title, const char *body) 


{ 
if (title && body) { 
UTF32Char *body32; 
int body32_ len, document id; 
unsigned int title size, body size; 


title size = strlen(title); 
body_size = strlen(body); 





/* 将 文档 存储 到 数据 库 中 并 获取 该 文档 对 应 的 文档 编号 */ 
db_add document(env, title, title size, body, body size); @ 
document_ id = db _ get document id(env, title, title size); @ 





/* 转换 文档 正文 的 字符 编码 */ 
if (!lutf8toutf32(body, body_size, &body32, &body32 len)) { 
/* 为 文档 创建 倒 排 列表 */ 
text to postings lists(env, document id, body32, body32_ len, 
env->token len, &env->ii buffer); @ 
env->ii buffer count++; 
free(body32); 
} 
env->indexed count++; 
print_ error("count:%d title: %s", env->indexed count, title); 


} 


/* 当 缓冲 区 中 存储 的 文档 的 数量 达到 了 指定 阀 值 时 ， 更 新 存储 器 上 的 倒 排 索引 */ 
if (env->ii buffer && 
(env->ii buffer count > env->ii buffer _ update _ threshold || !title)) { 
inverted_index_hash *p; 






























































print time diff(); 








/* 更 新 所 有 词 元 对 应 的 倒 排 项 */ 

for (p = env->ii buffer; p != NULL; p = p->hh.next) { 
update postings(env, p); © 

} 

free_ inverted index(env->ii buffer); 

print error("index flushed."); 

env->ii buffer = NULL; 

env->ii buffer count = 6; 





print time diff(); 





首先 ， 我 们 将 标题 和 正文 存储 到 了 用 于 存储 文档 的 数据 库 中 (@) 。 


由 于 SQLite 会 目 动 为 存储 到 数据 库 中 的 记录 分 配 ID， 上 所 以 我 们 就 把 这 
个 ID 用 作文 档 编号 (@@) 。 


接 下 来 ， 在 (人 全) 的 步骤 中 ， 我 们 通过 调用 函数 
text_to_postings_lists()， 并 根据 文档 编写 (document_id〉 和 文档 内 容 
(body32) ， 更 新 了 存储 在 变量 env->ii_buffer 中 的 小 倒 排 索引 。 


然后 我 们 要 判断 是 否 需要 合并 索引 (全) 。 当 title 为 NULL 时 ， 或 者 
当 已 构建 出 小 倒 排 索引 的 文档 数量 达到 了 阔 值 (env- 

>ii_buffer_ update_threshold) 时， 就 合并 索引 。 男 外 ，title 为 NULL 还 
标志 着 所 有 的 文档 都 已 经 处 理 完了 。 


env->ii_buffer_update_threshold 是 一 个 阐 值 ， 决 定 了 将 多 少 个 文档 存储 
到 小 倒 排 索引 中 之 后 ， 就 需要 将 小 倒 排 索引 与 存储 器 上 的 倒 排 索引 合并 
了 。 该 病 值 设 定 得 越 小 ， 内 存 的 使 用 量 也 就 越 小 ， 但 是 这 样 会 增加 对 存 
储 恬 的 访问 次 数 。 反 过 来 ， 该 病 值 设 定 得 越 大 ， 内 存 的 使 用 量 也 就 越 
大 ， 但 是 这 样 能 减少 对 存储 器 的 访问 次 数 。 


最 后 在 全 的 步骤 中 我 们 通过 调用 函数 update_postings() 合并 了 倒 排 索 
引 ， 并 将 合并 后 的 结果 写 入 数据 库 ( 存 储 器 〉 中。 


进一步 阅读 源 代 码 


下 面 ， 下 在 构建 倒 排 索引 的 过 程 中 先后 被 调用 的 
吧 











1 函数 text_to_postings_lists() 


该 函数 的 作用 是 为 文档 编号 和 构成 文档 内 容 的 字符 串 建 立 倒 排 列表 的 集 
合 〈 倒 排 文 件 ) 。 





炒米 


* 为 构成 文档 内 容 的 字符 串 建 立 倒 排列 表 的 集合 

















* @param[in] env 存储 着 应 用 程序 运行 环境 的 结构 体 

* @param[in] document_ id 文档 编号 。 为 6 时 表示 把 要 查询 的 关键 词 作 为 处 理 对 象 
* @param[in] text 输入 的 字符 串 
* @param[in] text_len 输入 的 字符 串 的 长 度 

* @param[in] n N-gram 中 N 的 取 值 

* @param[in,out] postings 倒 排列 表 的 数组 〈 也 可 视 作 是 指向 小 倒 排 索引 的 指针 ) 。 知 
* @retval 8 成 功 


















































* @retval -1 失败 
*/ 


text to postings lists(wiser env *env， 
const int document id, const UTF32Char *text, 
const unsigned int text len, 
const int n, inverted index hash **postings) 


/* FIXME: now same document update is broken. */ 
int t len, position = ©; 
const UTF32Char *t = text, *text end = text + text len; 


inverted index hash *buffer postings = NULL; 


for (; (t_ len = ngram next(t, text end, n, &t)); t++, position++) { @ 
/* 检索 时 ， 忽 略 掉 由 t 中 长 度 不 足 N-gram 的 最 后 几 个 字符 构成 的 词 元 */ 
if (t len >=n || document id) { 
int retval, t 8 size; 
char t 8[n * MAX UTF8 SIZE]; 








utf32toutf8(t, t len, t 8, &t 8 size); @ 


retval = token to postings list(env, document id, t 8, t 8 size， 
position, &buffer postings); @ 
if (retval) { return retval; } 
} 
} 


if (*postings) { © 

merge_inverted index(*postings, buffer postings); @ 
} else { 

*postings = buffer postings; 


} 


return 0; 





首先 ， 我 们 通过 调用 位 于 token.c 中 的 函数 ngram_next()， 从 字符 串 t 中 
取出 了 一 个 N-gram， 同 时 还 获取 了 词 元 的 长 上 度 tlen 和 指 癌 其 首 地 址 的 
站 针 t (@) 。 有 关 函 数 ngram_next0 的 讲解 我 们 先 放 到 后 面 ， 请 继续 


阅读 函数 text_to_postings_lists( 的 代码 。 





接 下 来 要 做 的 是 为 由 函数 ngram_next( 返回 的 每 个 词 元 创建 倒 排 列表 。 
在 创建 过 程 中 ， 我 们 首先 将 词 元 的 字符 编码 由 UTF-32 转换 成 了 UTF- 


8(@) ， 随 后 通过 调用 函数 token_to_postings_list()， 将 该 词 元 添加 到 
倒 排 列表 中 (@) 。 有 关 函 数 token_to_postings_list() 的 讲解 我 们 也 先 
放 到 后 面 。 


让 我 们 继续 往 下 读 ， 当 人 @ 的 循环 一 结束 ， 仪 由 传 入 本 函数 的 文档 构成 的 
倒 排 索引 也 就 构建 出 来 了 。 


为 了 便于 理解 ， 我 们 再 来 看 一 个 具体 的 例子 。 假 设 有 这 样 一 个 文档 ， 文 
档 编 号 是 10， 正 文 的 内 容 是 “自制 搜索 引擎 ”>。 将 该 文档 传递 给 函数 
text_to_postings_lists() 后 ， 就 可 以 构建 出 如 图 3-2 所 示 的 倒 排 索引 。 


构建 出 倒 排 索引 以 后 ， 如 果 已 经 存在 小 倒 排 索引 了 (〈@@) ， 就 调用 函数 
merge_inverted_index() 将 其 与 刚刚 构建 出 的 倒 排 索引 合并 (多) 。 反 
之 ， 如 果 还 没有 小 倒 排 索引 ， 束 将 刚刚 构建 出 的 倒 排 索引 作为 小 倒 排 过 
引 。 有 关 函 数 token_to_postings_list() 的 讲解 同样 也 先 放 到 后 面 。 





倒 排 项 
0 
倒 排 项 
倒 排 项 


倒 排 项 


图 3-2 ”将 文档 “上 自制 搜索 引擎 > 传递 给 函数 text_to_postings_lists() 后 构 
建 出 的 倒 排 索引 


前 面 我 们 从 源 代码 级 别 上 简单 地 梳理 了 一 过 构建 索引 的 流程 ， 下 面 让 我 
们 再 来 梳理 一 下 刚刚 并 未 讲解 的 4 个 函数 : ngram_next()、 





token_to_postings_list()、update_postings() 和 merge_inverted_index()。 
1 函数 ngram_next() 


首先 ， 我 们 来 看 一 下 在 函数 text_to_postings_lists() 中 被 调用 的 函数 
ngram_next()。 该 函数 负责 从 字符 串 中 取出 N-gram， 返 回 词 元 的 长 度 和 
词 元 首 地 址 的 指针 。 


7 

* 将 传 入 的 字符 串 分 割 为 N-gram 

* @param[in] ustr 输入 的 字符 串 (UTF-8) 

* @param[in] ustr_end 输入 的 字符 串 中 最 后 一 个 字符 的 位 置 
* @param[in] n N-gram 中 N 的 取 值 。 建 议 将 其 设 为 大 于 1 的 值 
* @param[out] start 词 元 的 起 始 位 置 
* @return 分 割 出 来 的 词 元 的 长 度 

*/ 

static int 

ngram next(const UTF32Char *ustr, const UTF32Char *ustr_end, 

unsigned int n, const UTF32Char **start) 




















{ 
int i; 
const UTF32Char *p; 


/* 读 取 时 跳 过 文本 开头 的 空格 等 字符 */ 
for (; ustr < ustr end && wiser is ignored char(*ustr); ustr++) { @ 


} 





/* 不 断 取出 最 多 包含 n 个 字符 的 词 元 ， 直 到 遇 到 不 属于 索引 对 象 的 字符 或 到 达 了 字符 串 的 尾 
for (i = 060, p= ustr; i < n && p < ustr end 
&& lwiser is ignored char(*p); i++, p++) { @ 





} 


*start = ustr; 
return p - ustr; 








在 读 取 构 成 词 元 的 字符 时 ， 我 们 首先 跳 过 了 文本 开头 的 空格 等 不 属于 索 
引 对 象 的 字符 (@@) 。 这 里 使 用 的 是 空 循环 ， 因 此 可 以 使 用 “; ”作为 for 
语句 的 循环 体 ， 但 是 为 了 易于 理解 ， 我 们 还 是 写成 了 空 语句 块 “{}” 的 形 
人 wiser is_ignored_char0 的 作用 是 判断 给 定 的 字符 是 否 不 属于 
念 索 对 象 。 








接 下 来 ， 通 过 @@ 中 的 for 语句 ， 我 们 从 文本 中 取出 了 n 个 字符 。 虽 然 这 
也 是 个 空 循 环 ， 但 是 循环 条 件 并 不 简单 ， 在 循环 时 既 要 考 夸 不 属于 索引 
对 象 的 字符 ， 还 要 防止 指针 p 超出 字符 串 的 末尾 。 


1 函数 token_to_postings_list() 


下 面 再 来 看 一 下 在 函数 text_to_postings_lists() 中 被 调用 的 函数 
token_to_postings_list()。 消 数 token_to_postings_list() 的 作用 是 为 文档 中 
的 一 个 词 元 创建 倒 排 列表 。 








ye 
* 为 传 入 的 词 元 创建 倒 排 列表 
* @param[in] env 存储 着 应 用 程序 运行 环境 的 结构 体 




















* @param[in] document_id 文档 编号 
* @Oparam[in] token 词 元 (UTF-8) 
* @param[in] token_size 词 元 的 长 度 ( 以 字 节 为 单位 ) 
* @param[in] position 词 元 出 现 的 位 置 
* @param[in,out] postings 倒 排 列表 的 数组 
* @retval 6 成 功 
* @retval -1 失败 
*/ 
int 
token to postings list(wiser env *enyv, 
const int document id, const char *token, 
const unsigned int token size, 
const int position, 
inverted index hash **postings) 




















postings_ list *pl]; 
inverted index value *ii entry; 
int token id, token docs count; 


token id = db get token id( 
env, token, token size, document id, &token docs count); @ 


if (*postings) { @ 

HASH_FIND_ INT(*postings, &token id, ii entry); @ 
} else { 

ii entry = NULL; @ 
} 


if (ii entry) {©@ 
pl = ii entry->postings list; @ 
pl->positions count++; @ 

} else { 


ii entry = create new inverted_index(token_id， 

document id ? 1 : token docs count); @ 
if (!ii entry) { return -1; } 
HASH_ADD_INT(*postings, token id, ii entry); @ 


pl = create new postings list(document id); @ 
if (!pl) { return -1; } 
LL _APPEND(ii entry->postings list, pl); @ 


} 

/* 保存 位 置信 息 */ 

utarray_push_ back(pl->positions, &position); @ 
ii entry->positions_ count++; 

return 0; 








首先 ， 我 们 通过 调用 函数 db_get_token_id0， 获 取 了 词 元 对 应 的 编号 








(图 ) 。 如 果 之 前 已 将 编号 分 配给 了 该 词 元 ， 那 么 在 此 处 获取 的 正 是 这 
个 编号 ;反之 ， 如 条 之 前 没有 分 配 编 号 ， 那 么 函数 db_get_token_id0 会 
为 该 词 元 分 配 一 个 新 的 编号 。 


再 往 下 看 ， 如 果 存 在 已 经 构建 好 的 小 倒 排 索引 @) ， 那 么 我 们 就 从 中 
获取 关联 到 该 词 元 编号 上 的 倒 排列 表 〈@ 国 ) 。 在 获取 时 ， 我 们 以 

token_id 为 键 调用 了 名 为 HASH_FIND_INTO 的 宏 ， 并 将 从 小 倒 排 索引 
(postings〉 中 获取 到 的 倒 排 列表 存储 到 变量 ii_entry (在 内 部 实际 上 是 


ii_entry->postings_list〉 中 。 


而 如 果 找 不 到 以 token_id 为 键 的 倒 排 列表 ， 那 么 就 先 将 变量 ii_entry 的 
值 设 为 NULL (@) 。 


如 果 变 量 计 _entry 的 值 不 为 NULL， 也 就 是 说 小 倒 排 索引 中 存在 关联 到 
该 词 元 上 的 倒 排 列表 (@); ， 那 么 我 们 就 先 将 指针 pl 指向 该 倒 排列 表 
( 国 ) ， 然 后 再 将 该 倒 排 列表 中 词 元 的 出 现 次 数 增加 1 ( 国 ) 。 在 计算 
用 于 对 检索 结果 进行 排名 的 分 数 时 ， 会 用 到 词 元 的 出 现 次 数 。 


反之 ， 如 果 变 量 让 entry 的 值 为 NULL， 也 就 是 说 小 倒 排 索引 中 不 存在 
关联 到 该 词 元 上 的 倒 排列 表 ， 那 么 我 们 就 先 调用 函数 
create_new_inverted_ index0， 生 成 一 个 空 的 小 倒 排 索引 (〈@ 园 ) ， 然 后 再 
调用 HASH_ADD_INTO， 将 该 词 元 添加 到 新 建 的 小 倒 排 索引 中 

(DD) 。 接 下 来 ， 通 过 调用 函数 create_new_postings_list0， 我 们 创建 出 
了 仅 由 工 个 文档 构成 的 倒 排列 表 pl (@O) ， 随 后 又 将 该 倒 排 列表 添加 到 











了 刚刚 生成 的 小 倒 排 索引 中 〈@3) 。 
此 时 ， 指 针 pl 指 癌 关联 到 词 元 上 的 倒 排 列表 。 


接着 ， 我 们 又 通过 调用 函数 utarray_push_back()， 将 词 元 的 出 现 位 置 添 
加 到 了 倒 排 列表 中 存储 着 出 现 位 置 的 数组 的 末尾 〈@ 罗 ) 。 


最 后 ， 我 们 又 将 当前 词 元 在 所 有 文档 中 的 出 现 次 数 之 和 增加 1。 出 现 次 
数 之 和 的 数据 存储 在 关联 到 词 元 的 倒 排 列表 中 (&5)〉。 


1 函数 update_postings() 








下 面 ， 让 我 们 再 来 看 一 下 在 函数 add_document( 中 被 调用 的 函数 
update_postings() 吧 。 





/** 
* 将 内 存 上 《小 倒 排 索引 ) 的 倒 排列 表 与 存储 器 上 的 倒 排列 表 合 并 后 存储 














* @param[in] env 存储 着 应 用 程序 运行 环境 的 结构 体 


* @param[in] p 含有 倒 排 列表 的 倒 排 索引 中 的 索引 项 
*/ 





void 
update postings(const wiser env *env, inverted index value *p) 


{ 


int old postings_ len; 
postings_ list *old postings; 


if (!fetch postings(env, p->token id, &old postings, 
&old postings len)) { @ 
buffer *buf; 
if (old postings len) { 
p->postings list = merge postings(old postings, p->postings list); @ 
p->docs_ count += old postings_ len; 


} 
if ((buf = alloc buffer())) { @ 
encode postings(env, p->postings list, p->docs count, buf); @ 
db_update postings(env, p->token id, p->docs_ count, 
BUFFER PTR(buf), BUFFER SIZE(buf)); 
free buffer(buf); 
} 
} else { 
print error("cannot fetch old postings list of token(%d) for update.", 
p->token_id); 


[L 


首先 ， 我 们 通过 调用 函数 fetch_postings()， 从 存储 器 中 取出 了 作为 合并 
源 的 倒 排列 表 〈@@) 。 


如 果 存 储 器 中 存在 作为 合并 源 的 倒 排 列表 ， 那 么 就 调用 函数 
merge_postings()， 将 该 倒 排 列表 和 要 合并 进来 的 倒 排 列表 (Pp- 
>postings_list) 合并 在 一 起 (人 多) 。 有 关 函 数 merge_postings() 的 讲解 先 
放 到 后 面 ， 我 们 继续 往 下 看 。 


接 下 来 ， 我 们 申请 了 一 块 临 时 的 缓冲 区 (C9) ， 利 用 这 块 缓冲 区 和 函数 
encode_postings()， 将 内 存 上 的 倒 排 列表 转换 成 了 字 节 序列 (@) 。 


最 后 ， 我 们 又 通过 调用 函数 db_update_postings()， 将 转换 后 的 字 节 序列 
存储 到 了 存储 器 中 (G0) 。 


1 巩 数 merge_inverted_index() 


下 面 我 们 再 来 看 一 下 在 函数 text_to_postings_lists() 中 被 调用 的 函数 
merge_inverted_index0。 函 数 merge_inverted_index() 的 作用 是 合并 内 存 
上 的 两 个 倒 排 索引 。 





/** 
* 合并 两 个 倒 排 索 引 
* @param[in] base 合并 后 其 中 的 元 素 会 增多 的 倒 排 索引 《合并 目标 ) 























* @param[in] to_be_added 合并 后 就 被 释放 的 倒 排 索 引 〈 合 并 源 ) 


*/ 
void 
merge_inverted index(inverted index_hash *base, 
inverted index _ hash *to be added) 的 
{ 


inverted index value *p, *temp; 


HASH_ITER(hh, to be added, p, temp) { @ 

inverted index value *t; 

HASH _DEL(to be added, p); 的) 

HASH_FIND INT(base, &p->token id, t); 

if (t) { 多 
t->postings_ list = merge postings(t->postings list, p->postings list) 
t->docs count += p->docs count; @ 
free(p); 


} else { 
HASH _ ADD _ INT(base, token id, p); 





该 函数 会 先 接收 两 个 内 存 上 的 倒 排 索引 作为 参数 8D) ， 然 后 将 合并 源 
(传递 给 第 2 个 参数 的 倒 排 索引 〉 中 的 内 容 合 并 到 目标 (传递 给 第 ly 
参数 的 倒 排 索 引 ) 中 。 合 并 完成 后 ， 该 函数 还 会 从 内 存 上 释放 出 传递 给 


第 2 个 参数 的 倒 排 索引 所 占用 的 空间 。 


其 体 的 合并 方法 是 ， 先 将 存储 在 作为 合并 源 的 倒 排 尝 引 中 的 所 有 倒 排 列 
表 逐 一 取出 ， 存 到 临时 变量 里 《62) ， 然 后 再 将 刚刚 取出 的 倒 排 列表 从 
作为 合并 源 的 关联 数组 中 删除 〈@9) 。 


接 下 来 ， 用 刚 取 出 的 倒 排列 表 所 对 应 的 词 元 ， 到 合并 目标 中 去 查找 与 该 

词 元 对 应 的 倒 排 列表 (89) 。 如 果 合 并 目标 中 存在 相应 的 倒 排列 表 
(G59) ， 就 调用 函数 merge_postings()， 将 合并 源 和 合并 目标 中 的 元 素 

所 带 有 的 倒 排列 表 合并 在 一 起 (6G®) ， 并 将 出 现 过 该 词 元 的 文档 数 相 加 
(@D 有 关 函 数 merge_postings() 的 实现 我 们 稍 后 再 讲解 一 一 反 

之 ， 如 果 合 并 目标 中 没有 相应 的 倒 排 列表 ， 就 将 获取 的 合并 源 中 的 倒 排 
列表 直接 添加 到 作为 合并 目标 的 关联 数组 中 (G8) 。 


另外 ， 在 这 里 ， 我 们 通过 使 用 uthash 提供 的 宏 HASH_ITERO， 实 现 了 
将 合并 源 中 的 元 素 逐 一 取出 的 循环 。 



































1 函数 merge_postings() 


最 后 ， 我 们 再 来 详细 地 看 一 下 在 函数 merge_inverted_index() 和 函数 
update_postings() 中 都 调用 了 的 函数 merge_postings() 吧 。 





static postings list * 
merge_ postings(postings list *pa, postings list *pb) 


postings_ list *ret = NULL, *p; @@ 
/* 用 pa 和 pb 分 ) 别 遍历 base 和 to be_added (参见 函数 merge_inverted_index) 中 的 倒 排 
while (pa || pb) { 全 
postings_ list *e; 
if (!pb || (pa && pa->document id <= pb->document id)) { @ 
e = pa; 

















pa = pa->next; 
} else if (!pa || pa->document id >= pb->document id) { @® 
e = pb; 
pb = pb->next; 亿 
} else { 
abort(); 


} 
e->next = NULL; (以 下 7 行 ) 
if (!ret) { 
Pet = e; 
} else { 
p->next = e; 


return ret; 


} 





该 函数 会 接收 两 个 内 存 上 的 倒 排 列表 作为 参数 89) ， 并 返回 将 其 合 3 
后 的 倒 排 列表 。 我 们 使 用 变量 ret 来 管理 合并 后 的 倒 排 列表 0)。 


竺 分 别 使 用 变量 pa 和 pb 过 历 两 个 倒 排列 表 中 的 元 系 《〈 倒 排 项 ) 的 过 程 
中 ， 我 们 要 不 断 地 从 pa 和 pb 所 指 癌 的 两 个 元 系 中 挑选 出 文档 编写 较 小 
的 一 方 ， 然 后 将 其 添加 到 合并 后 的 倒 排 列表 中 。 


如 果 pa 所 指向 的 文档 编号 小 于 pb 所 指向 的 文档 编号 4) ， 那 么 就 将 
pa 所 指向 的 元 素 添 加 到 合并 后 的 倒 排 列表 中 (@)) ， 并 让 pa 指向 下 一 
个 元 素 (49) 。 


有 反之， 如果 pb 所 指向 的 文档 编号 小 于 pa 所 指向 的 文档 编号 49) ， 那 
么 就 将 pb 所 指向 的 元 素 添加 到 合并 后 的 倒 排 列表 中 《0) ， 并 让 pb 指 
向 下 一 个 元 素 〈@) 。 


男 外 ， 在 实际 的 合并 过 程 中 ,在 (9) 和 【〔 钨 ) 两 处 ， 我 们 并 没有 将 要 
应 加 的 元 素 直 接 添 加 到 倒 排列 表 中 ， 而 是 先 将 其 保存 到 了 变量 e 中 。 到 
了 后 面 哆 的 那 一 段 代 码 ， 我 们 会 将 变量 e 添加 到 合并 后 的 倒 排列 表 中 。 

如 果 pa 和 pb 双方 都 指 风 了 各 目 倒 排列 表 中 最 后 一 个 元 素 之 后 的 位 置 ， 

那么 合并 处 理 就 此 结束 (多)。 


至 此 为 止 ， 我 们 整 梳 理 完了 以 函数 add_document( 为 入 口 的 构建 倒 排 索 
引 的 处 理 流 程 。 下 面 我 们 再 来 简单 地 回顾 一 下 整个 处 理 流程 吧 。 











QD 从 文档 中 取出 词 元 。 
G@ 为 每 个 词 元 创建 倒 排 列表 并 将 该 倒 排 列表 添加 到 小 倒 排 索引 中 。 


ee 就 将 其 与 存储 器 上 的 倒 排 索引 合 
并 到 一 起 。 


站 
根据 实际 情况 设计 搜索 引擎 《系统 ) 


虽然 借助 倒 排 索引 可 以 加 快 全 文 搜索 的 速度 ， 但 是 构建 倒 排 索引 却 
要 花费 大 量 的 时 间 。 例 如 ， 当 遇 到 “虽然 检索 次 数 很 少 ， 但 是 需要 
经 常 检 索 最 新 的 信息 ”这 种 情况 时 ， 有 时 不 建立 索引 ， 而 是 每 次 都 
使 用 grep 等 工具 对 文档 本 号 进 行 全 扫描 ， 反 而 能 够 得 到 更 好 的 效 
条 。 再 比如 ， 当 要 检索 的 单词 有 一 定 范 围 时 ， 只 需 将 构建 倒 排 索引 
的 对 象限 定 在 特定 的 单词 上 ， 就 既 能 降低 构建 倒 排 索引 时 的 开销 ， 
又 能 加 快 那些 使 用 了 倒 排 索引 的 检索 速度 。 


综 上 所 述 ， 我 们 应 该 根据 实际 情况 灵活 地 调整 搜索 引擎 (系统 ) 的 
构成 和 设计 方案 。 例 如 ，Twitter 在 实现 倒 排 索 引 时 就 做 出 过 这 样 一 
个 改进 : 由 于 在 Twitter 上 用 户 最 多 只 能 发 表 140 个 字 的 推 文 ， 所 
以 只 需要 1 个 字 市 就 可 以 存储 词 元 的 出 现 位 置信 息 了 ，Twitter 就 利 
用 这 个 特征 ， 市 约 了 倒 排 列表 所 需 的 存储 空间 。 这 就 是 一 个 根据 实 
际 情况 提升 索引 结构 使 用 效率 的 例子 。 




















第 4 章 开始 检索 吧 


在 第 3 章 中 ， 我 们 看 到 了 倒 排 索引 的 实现 过 程 以 及 对 其 进行 构建 处 理 的 
过 程 。 进 入 本 章 ， 就 让 我 们 再 来 了 解 一 下 如 何 对 已 构建 的 倒 排 索 引进 行 
检索 吧 。 检 索 处 理 的 基础 知识 也 已 经 在 第 1 章 讲解 过 了 ， 因 此 在 阅读 时 
各 有 括 问 ， 不 妨 再 回 过 头 去 读 一 读 第 1 章 。 另 外 ， 由 于 在 第 3 章 我 们 并 
没有 对 已 构 建 的 倒 排 索引 进行 压 纵 ， 所 以 在 本 草 也 还 是 以 未 进行 压缩 的 
人 0 
和 内容。 











4-1 检索 处 理 的 大 致 流程 
在 本 节 ， 我 们 先 来 简单 地 复习 一 下 在 第 1 章 讲解 过 的 有 关 检 索 处 理 的 流 


程 。 

充分 理解 检索 处 理 的 流程 

证 我 们 举例 来 说 。 假 设 搜索 引擎 接收 到 了 扩容 为 < 目 制 搜索 引擎 ”的 碍 
询 ， 那 么 接 下 来 就 会 进行 如 下 的 检索 处 理 。 由 于 wiser 只 文 持 AND 检 
索 ， 所 以 在 下 面 的 讲解 中 也 假设 进行 的 是 AND 检索 。 


QD 将 查询 分 割 为 词 元 (如 果 使 用 的 是 bi-gram， 那 么 就 会 分 割 出 “ 自 
制 * 制 搜 ”“ 搜 索索 引 ”“ 引 获 ”5 个 词 元 ) 。 


@ 将 分 割 出 的 各 个 词 元 ， 按 照 出 现 过 该 词 元 的 文档 数量 进行 升序 排列 
升序 排列 的 理由 将 在 稍 后 曾 明 ) 。 


(3) 获取 各 个 词 元 的 倒 排 列表 ， 并 从 中 取出 文档 编号 和 该 词 元 在 文档 中 
出 现 位 置 的 列表 。 


由 如 果 所 有 词 元 都 出 现在 同一 个 文档 中 ， 并 且 这 些 词 元 的 出 现 位 置 都 
征 相 邻 的 ， 那 么 就 将 该 文档 添加 到 检索 结果 中 。 


@) 计算 已 添加 到 检索 结果 中 的 各 文档 与 查询 的 匹配 度 (在 wiser 中 ， 我 
们 使 用 TF-IDF 值 作 为 匹配 度 ) 。 


(9) 将 检索 结果 按照 匹配 度 的 降序 排列 。 


和 
返回 。 


另外 ， 在 第 凶 步 中 ， 之 所 以 要 将 分 割 出 的 各 个 词 元 按照 出 现 过 该 词 元 的 
文档 数量 进行 升序 排列 ， 是 因为 这 样 做 可 以 尽早 缩小 检索 结果 的 范围 。 
个 
次 数 。 


男 外 ， 与 构建 倒 排 索引 时 一 样 ， 在 上 述 流程 中 ， 我 们 通过 一 次 错开 1 个 























字符 的 方式 将 查询 分 割 为 了 bi-gram 的 词 元 。 但 是 ， 该 方法 未 必 是 个 高 
效 的 方法 。 因 为 原本 无 需 每 次 错开 1 个 字符 才能 将 查询 分 割 为 bi-gram 
的 词 元 ， 而 是 只 需要 将 查询 分 割 为 无 重复 部 分 的 词 元 即 可 。 例 如 ， 在 检 
索 “ 目 制 搜索 引擎 ?时 ， 我 们 可 以 先 将 查询 分 割 为 " 目 制 交 搜 索 交 引擎 ?3 
个 词 元 ， 然 后 分 别 获取 它们 各 目的 倒 排 列表 ， 最 后 使 用 这 些 倒 排列 表 进 
行文 档 匹 配 的 判定 。 不 过 在 本 章 中 ， 我 们 先 不 讲解 这 种 处 理 方 法 如 何 实 
现 ， 而 是 在 第 6 章 “ 挑 战 wiser 的 优化 及 参数 的 调整 "中 重新 提 及 该 话 
题 ， 请 诸位 到 时 务必 挑战 一 下 这 种 处 理 方法 。 








4-2 ”使 用 倒 排 索引 进行 检索 


下 面 就 让 我 们 从 源 代码 级 别 梳理 一 下 使 用 倒 排 索引 进行 检索 处 理 的 流程 
吧 。 


从 源 代 码 级 别 梳理 检索 处 理 的 流程 


以 检索 模式 启动 wiser 后 ， 消 数 search() 就 会 被 调用 。 下 面 我 们 就 从 该 
函数 的 内 部 开始 横 理 。 





/** 

* 进行 全 文 搜索 

* @param[in] env 存储 着 应 用 程序 运行 环境 的 结构 体 
* @param[in] query 查询 




















search(wiser env *env, const char *query) 
{ 

int query32_len; 

UTF32Char *query32; 


if (!lutf8toutf32(query, strlen(query), &query32, &query32 len)) {©@ 
search results *results = NULL; 


if (query32 len < env->token len) {©@ 
print error("too short query."); 
} else { 
query_token hash *query tokens = NULL; 
split query to tokens( 
env, query32, query32 len, env->token len, &query tokens); @ 
search docs(env, &results, query tokens); @ 


} 
print search results(env, results); ©@ 


free(query32); 
} 
} 





首先 ， 我 们 将 查询 字符 串 的 编码 由 UTF-8 转换 成 了 UTF-32 (@) 。 


随后 判断 了 查询 字符 串 的 长 度 是 否 大 于 N-gram 中 N 的 取 值 (人 @) 。 如 
果 长 度 大 于 N， 就 调用 函数 Split_query_to_tokens0， 将 词 元 从 查询 字符 
串 中 提取 出 来 (@) 。 我 们 先 继 续 往 下 看 ， 稍 后 再 讲解 该 函数 。 


接 下 来 ， 以 刚刚 提取 出 来 的 词 元 作为 参数 ， 调 用 函数 search_docs()， 开 
J (四 ) 。 有 关子 数 search_docs0 的 细节 ， 我 们 将 在 稍 后 
证 理 ， 


最 后 在 四 的 步骤 中 ， 调 用 了 用 于 打印 检索 结果 的 函数 

print_search_results0。 至 此 ， 检 索 处 理 的 流程 就 结束 了 。 函 数 

Print- search_results0) 会 先 将 检索 结果 从 results 中 逐一 取出 ， 然 后 以 检索 
结果 中 的 文档 编号 为 得 询 条 件 ， 从 文档 数据 库 中 取出 相应 的 文档 标题 ， 

最 后 输出 获取 到 的 标题 和 检索 的 得 分 。 








解读 split_query_to_tokens() 函数 的 具体 实现 


在 了 解 了 大 致 的 检索 流程 后 ， 我 们 先 来 看 一 下 用 于 将 查询 字符 串 转 换 为 
词 元 序列 的 函数 split_query_to_tokens()。 








/** 

* 从 查询 字符 串 中 提取 出 词 元 的 信息 

* @param[in] env 存储 着 应 用 程序 运行 环境 的 结构 体 
* @param[in] text 查询 字符 串 

* @param[in] text_len 查询 字符 串 的 长 度 

* @param[in] n N-gram 中 N 的 取 值 
* “ebacamban out] query_tokens 按 各 词 元 编号 存储 位 置信 息 序 列 的 关联 数组 

若 传 入 的 是 指向 NULL 的 指针 ， 则 新 建 一 个 关联 数组 



















































































* @retval 6 成 功 
* @retval -1 失败 
*/ 
int 
split query to tokens(wiser env *enyv, 
const UTF32Char *text, 
const unsigned int text len, 
const int n, query token hash **query_ tokens) 


{ 


return text to postings_ lists(env, 
68，/* 将 document_id 设 为 @ */ 
text, text len, n, 
(inverted index hash **)query_ tokens); 





从 源 代码 可 以 看 出 ， 访 函数 实际 上 就 是 又 去 调用 了 在 第 3 章 讲 解 过 的 函 
数 text_to_postings_lists()。 之 所 以 这 样 做 ， 是 因为 从 字符 串 中 生成 倒 排 
列表 的 处 理 过程 ， 和 从 查询 中 提取 出 词 元 后 再 取出 各 词 元 位 置信 息 的 处 
| 同时 ， 这 样 做 也 是 为 了 使 讲解 的 内 容 更 易于 理 
他。 


另外 ， 在 检索 时 ， 我 们 将 0 传递 给 了 函数 text_to_postings_lists() 的 第 2 
个 参数 ， 以 表示 不 需要 使 用 文档 编号 。 也 就 是 说 ， 在 函数 
text_to_postings_lists() 的 内 部 ， 是 根据 文档 编号 是 否 为 0 来 判别 当前 是 
构建 模式 还 是 检索 模式 的 。 


同样 地 ， 由 于 用 于 管理 查询 中 词 元 的 结构 与 用 于 构建 索引 的 结构 体 非常 
J 所 以 我 们 通过 为 后 者 赋予 别名 的 方式 ， 定 义 出 了 表示 前 者 的 结构 














typedef inverted index _ hash query token_ hash; 
typedef inverted index value query token value; 


typedef postings list token positions list; 





使 用 具体 示例 加 深 对 检索 处 理 流程 的 理解 


下 面 ， 我 们 再 来 稍微 详细 地 看 一 下 作为 检索 处 理 核 心 的 函数 
search_docs()， 以 及 在 该 函数 中 被 调用 的 函数 search_phrase()。 由 于 这 两 
个 函数 的 实现 都 有 些 复杂 ， 所 以 会 完 通 过 具体 的 示例 粗略 地 讲解 一 下 ， 
然后 再 来 梳理 其 源 代码 。 


在 本 例 中 ,假设 我 们 要 使 用 查询 字符 串 “ 搜 索引 擎 ”对 如 图 4-1 所 示 的 倒 
排 索引 进行 检索 。 











出 现 位 


倒 排 项 


| 出 现 位 置 |4.67 .117 





图 4-1 在 具体 示例 中 使 用 的 〈 部 分 ) 倒 排 索引 


首先， 我 们 将 查询 字符 串 分 割 成 了 3 个 词 元 一 一 “搜索 “索引 ”“ 引 
擎 ”。 然 后 ， 分 别 扫描 关联 到 这 3 个 词 元 上 的 倒 排列 表 。 如 采 能 够 找到 
一 个 在 所 有 倒 排 列表 中 都 出 现 过 的 文档 编写 ， 那 么 就 将 它 所 指向 的 文档 





加 入 到 候选 检索 结果 中 。 


在 这 个 过 程 中 ， 我 们 要 将 第 一 个 词 元 “搜索 ” 称 为 “ 词 元 A”。 到 后 面 真正 
开始 阅读 水 数 search_docs( 的 代码 时 ， 我 们 还 会 用 到 这 个 叫 法 。 


其 体 的 检索 流程 如 下 。 


首先 ， 从 词 元 A 的 倒 排 列表 的 开头 获取 文档 编号 为 15 的 元 素 ; 然后 ， 
在 力 外 两 个 词 元 “索引 ”和 “引擎 ”的 倒 排 列表 中 ， 检 查 是 否 也 存在 文档 编 
号 为 15 的 元 素 。 


在 词 元 “索引 ”的 倒 排列 表 中 ， 第 一 个 文档 编号 是 13， 第 二 个 文档 编写 古 
大 于 15 的 17。 此 时 就 可 以 确定 ， 文 档 编号 小 于 17 的 文档 一 定 不 属于 
候选 检索 结果 。 之 所 以 这 样 说 ， 是 因为 倒 排 列表 是 按照 文档 编写 的 升序 
排列 的 。 既 然 词 元 A“ 搜索” 未 曾 出 现在 编写 小 于 15 的 文档 中 ， 词 元 “过 
引 ” 也 未 曾 出 现在 编号 大 于 15 且 小 于 17 的 文档 中 ， 那 么 ， 在 编号 小 于 
17 的 文档 中 就 一 定 不 可 能 同时 出 现 “ 搜 索 * 和 “索引 ”。 


由 于 编写 小 于 17 的 文档 不 可 能 成 为 检索 结果 ， 所 以 会 继续 向 后 读 取 词 
元 A 的 倒 排列 表 ， 直 到 发 现 东 个 文档 编号 不 小 于 17 的 元 素 为 止 。 继 续 
加 后 该 ， 融 读 取 到 了 文档 编号 为 18 的 元 素 。 


至 此 为 止 ， 我 们 做 了 如 下 几 件 事 。 


。 首先 获取 了 词 元 A 的 文档 编号 ， 然 后 检查 了 其 他 的 词 元 是 否 也 带 
有 相同 的 文档 编号 


。 如 条 没有 发 现 带 有 相同 文档 编号 的 词 元 ， 那 么 接 下 来 就 继续 癌 后 
读 取 词 元 A 的 倒 排 列表 ， 直 到 遇 到 更 大 的 文档 编号 为 止 


下 一 次 循环 时 ， 词 元 A 的 文档 编号 是 18。 对 于 除 词 元 A 以 外 的 其 他 词 
元 ， 只 需要 继续 辐 后 读 取 其 各 目的 倒 排列 表 ， 就 可 以 知道 是 否 包含 着 文 
档 编 号 为 18 的 元 素 了， 或 者 说 束 可 以 知道 哪个 倒 排 列表 中 含有 编号 为 
18 的 文档 了 。 由 于 在 本 例 中 所 有 的 倒 排 列表 中 都 含有 编写 为 18 的 文 

档 ， 所 以 该 文档 就 成 为 了 候选 检索 结果 。 


但 为 什么 编号 为 18 的 文档 不 是 正式 检索 结果 ， 而 只 是 候选 检索 结果 呢 ? 
这 束 需 要 诸位 回忆 一 下 在 第 工 章 中 讲解 过 的 有 关 短 语 检索 的 知识 了 。 例 




















如 ， 假 设 我 们 将 内 容 为 “不 可 能 ”的 查询 发 送 给 了 搜索 引擎 ， 虽 然 有 些 文 
档 也 同时 包含 了 “不 可 ”和 “可 能 ”， 但 古 这 些 文档 却 未 必 包 含 连 在 一 起 
的 “不 可 能 ”3 个 字 。 以 “他 不 可 一 世 的 态度 可 能 源 于 他 童年 时 的 经 历 ” 这 
人 句 话 为 例 ， 虽 然 先 后 包含 了 “不 可 ”和 “可 能 ”这 两 个 词 ， 但 是 却 并 没有 包 
含 “不 可 能 ”这 个 短语 。 因 此 要 想 碍 找 像 是 “不 可 能 ”这 样 的 短语 ， 就 必须 
确认 “不 可 ”和 “可 能 ”是 不 是 相 邻 出 现 的 。 


也 就 是 说 ， 在 倒 排 列表 中 ， 我 们 只 需要 关注 3 个 含有 文档 编号 18 的 方 
框 中 的 出 现 位 置 ， 并 检查 “搜索 “索引 ”“ 引 获 ” 这 3 个 词 元 是 不 是 顺序 
《 相 邻 ) 出 现 的 即 可 。 


换 句 话说， 就 是 以 “搜索 ”的 出 现 位 置 为 起 始 位置 ， 确 认 * 索 引 ” 的 出 现 位 
置 是 否 为 起 始 位 置 + 1, “引擎 ”的 出 现 位 置 是 否 为 起 始 位置 + 2。 在 本 例 
中 , “搜索 ”的 出 现 位 置 是 30、“ 索 引 ? 是 31、“ 引 擎 "是 32， 因 此 满足 相 
邻 出 现 的 条 件 。 记 录 在 编号 为 18 的 文档 中 发 现 了 短语 后 ， 就 可 以 继续 
向 后 处 理 词 元 A 的 倒 排 列表 了 。 


接 下 来 要 做 的 只 不 过 是 反复 执行 上 述 处 理 。 
继续 癌 后 扫描 ， 使 词 元 A 的 文档 编写 依次 变 为 30 和 213。 当 文档 编号 


为 213 时 ， 由 于 在 词 元 “索引 ”的 倒 排 列表 中 ， 没 有 比 213 更 大 的 文档 编 
0 同时 也 无 法 再 继续 癌 后 读 取 下 一 个 元 素 了 ， 所 以 检索 处 理 至 此 结 























最 后 ， 对 找到 的 检索 结果 进行 排序 (由 于 在 本 例 中 只 有 1 条 检索 结果 ， 
所 以 也 就 没有 排序 的 必要 了 ) 。 


至 此 为 止 ， 我 们 通过 具体 的 示例 ， 简 单 地 介绍 了 稍 后 将 要 讲解 的 函数 
search_phrase() 和 函数 search_docs() 的 处 理 流 程 。 如 果 感 到 头脑 有 些 混 
乱 ， 不 妨 试 着 先 在 纸 上 梳 理 一 下 上 述 处 理 过 程 。 





解读 函数 search_docs0 的 实现 细节 
下 面 我 们 来 看 一 下 函数 search_docs() 的 有 具体 实现 吧 。 





/** 

* 检索 文档 

* @param[in] env 存储 着 应 用 程序 运行 环境 的 结构 体 
* @param[in,out] results 检索 结果 

















@param[in] tokens 从 查询 中 提取 出 来 的 词 元 信息 

/ 

void 

search docs(wiser env *env, search results **results, 
query_token hash *tokens) 


* 
* 


{ 


int n_tokens; 
doc search cursor *cursors; 


if (!tokens) { return; } 





/* 按照 文档 频率 的 升序 对 tokens 排 序 */ 
HASH_SORT(tokens, query token value docs count desc sort); @ 


/* 初始 化 */ 
n_tokens = HASH COUNT(tokens); 
if (n tokens && 
(cursors = (doc search cursor *)calloc( 
sizeof(doc search cursor), n tokens))) {© 
int i; 
doc_ search cursor *cur; 
query_token value *token; 
for (i = 68, token = tokens; token; i++, token = token->hh.next) { @ 
if (!token->token id) { ©。 








/* 当前 的 token 在 构建 索引 的 过 程 中 从 未 出 现 过 */ 
goto exit; 
} 
if (fetch postings(env, token->token id, 
&cursors[i].documents, NULL)) { @ 


print_ error("decode postings error!: %d\n", token->token id); 
goto exit; 


} 


if (lcursors[i].documents) { 
/* 虽然 当前 的 token 存 在 ， 但 是 由 于 更 新 或 删除 导致 其 倒 排列 表 为 空 。*/ 
goto exit; 


} 


cursors[i].current = cursors[i].documents; @ 











} 


while (cursors[6].current) {@ 


int doc id, next doc id = ©; 
/* 将 拥有 文档 最 少 的 词 元 称 作 A。 */ 
doc_ id = cursors[8].current->document id; @ 























/* 对 于 词 元 A 以 外 的 词 元 ， 不 断 获取 其 下 一 个 document_id， 直 到 当前 的 document_i 
for (cur = cursors + 1, i = 1; i «< n tokens; cur++, i++) { @ 














while (cur->current && cur->current->document id < doc id) { @ 


cur->current = cur->current->next; @ 


} 


if (lcur->current) { goto exit; } @ 


/* 对 于 词 元 A 以 外 的 词 元 ， 如 果 其 document_id 不 等 于 词 元 A 的 document_id， 那 么 
if (cur->current->document id != doc id) { @ 


next doc id = cur->current->document id; @ 


break ; 


} 
if (next doc id > 6) { @ 


/* 不 断 获取 A 的 下 一 个 document_id， 直 到 其 当前 的 document_id 不 小 于 next_doc 
while (cursors[6].current 
&& cursors[6].current->document id < next doc id) { 四 
cursors[6].current = cursors[6].current->next; ©@ 





} 
} else { 
int phrase count = -1; 


if (env->enable phrase search) { 
phrase count = search phrase(tokens, cursors); @ 
} 
if (phrase count) { 
double score = calc tf idf(tokens, cursors, nNn_ tokens, 
env->indexed count); @ 


add _ search result(results, doc id, score); 四 


} 


cursors[6].current = cursors[6].current->next; CDb) 


} 


} 
exit: @ 


for (i = 8; i < n tokens; i++) { 
if (cursors[il].documents) { 
free token positions list(cursors[i].documents); 


} 
free(cursors); 
free_ inverted index(tokens); 


HASH_SORT(*results, search results score desc sort); 四 
} 





首先 ， 要 对 从 碍 询 字 符 串 中 取出 的 词 元 〈token) 集合 ， 按 照 各 词 元 文 








档 频率 的 升序 进行 排列 〈@) 。 文 档 频率 是 指 在 作为 检索 对 象 的 所 有 广 
信 中 ， 出现 过 革 个 词 元 的 文档 当量。 这样 排 序 的 理由 已 经 在 本 章 的 开关 
8 释 过 了 。 


接 下 来 ， 我 们 为 每 个 词 元 都 分 配 了 一 块 内 存 空 间 ， 用 于 存储 表示 当前 指 
向 了 哪个 文档 的 状态 (游标 )〈@) 。 稍 后 遍历 每 个 词 元 对 应 的 倒 排列 
表 时 ， 会 用 到 这 些 游 标 。 


在 人 @ 的 步骤 中 ， 我 们 从 词 元 集合 中 将 词 元 逐一 取出 。 此 时 ， 如 果 某 个 词 
元 还 没有 被 分 配 编号 〈 人 @) ， 则 说 明 无 法 从 数据 库 中 获取 到 该 词 元 的 编 
号 ， 也 就 是 说 查询 该 词 元 得 到 的 结果 为 空 。 一 旦 出 现 了 这 种 情况 ， 我 们 
就 跳 转 到 exit 标签 以 中 断 检 索 处 理 。 而 如 果 词 元 已 经 被 分 配 了 编号 
(四 ) ， 那 么 接 下 来 我 们 融通 过 调用 函数 fetch_postings0， 从 索引 【 数 
据 库 ) 中 获取 该 词 元 对 应 的 倒 排列 表 。 此 时 ， 如 果 能 够 正确 地 获取 到 倒 
ne 使 其 指向 倒 排 列表 中 的 第 一 个 
文档 (@@)， 


至 此 ， 我 们 通过 直到 (人 @@) 为 止 的 一 系列 处 理 ， 设 定好 了 各 个 词 元 所 对 
人 
词 元 A。 


在 接 下 来 的 检索 处 理 ( 标 有 人 @ 的 循环 ) 中 ， 我 们 通过 不 断 向 后 移动 各 个 
游标 ， 来 查找 在 所 有 的 倒 排 列表 中 共同 出 现 的 文档 编号 。 只 要 还 没有 扫 
描 到 词 元 A 所 对 应 的 倒 排 列表 的 末尾 ， 检 索 处 理 就 不 会 结束 。 的 确 ， 
我 们 应 该 一 一 检查 所 有 词 元 的 扫描 位 置 ， 看 看 有 没有 扫描 到 各 自 倒 排列 
表 的 末尾 ， 但 是 在 这 里 ， 只 需要 检查 对 词 元 A 的 扫描 是 否 结束 了 即 
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在 该 循环 中 ， 我 们 首先 通过 词 元 A 的 游标 获取 到 了 一 个 文档 编号 





(@)。 我们 称 这 个 文档 编号 为 “文档 编号 A”。 


接 下 来 ， 需 要 检查 除 词 元 A 以 外 的 所 有 词 元 的 倒 排列 表 ， 看 看 其 中 是 
否 也 包含 文档 编号 A(@@) 。 检 查 时 ， 如 果 游 标 指向 的 文档 编号 小 于 文 
档 编号 A〈@ 轩 ) ， 那 么 就 使 游标 指向 下 一 个 文档 编写 (人 @)。 


在 扫描 除 词 元 A 以 外 的 词 元 的 倒 排 列表 的 过 程 中 ， 如 果 游 标 到 达 了 该 
倒 排 列表 的 末尾 ， 就 要 强制 中 断 检索 处 理 (@@) 。 


在 国 的 步骤 中 ， 如 果 当 前 游标 所 指向 的 文档 编号 不 等 于 文档 编号 A， 那 
么 说 明 在 当前 游标 所 指 同 的 词 元 的 倒 排 列表 中 不 存在 文档 编写 A， 同 时 
也 说 明 当 前 游标 所 指 问 的 文档 编写 大 于 文档 编写 A。 因 此 ， 我 们 就 将 当 
前 游标 所 指向 的 文档 编号 赋值 给 变量 next_doc_ id (®@) 。 


如 果 next_doc id 大 于 0 (图 ) ， 即 文档 编号 A 所 指向 的 文档 并 不 属于 
候选 检索 结果 时 ， 要 将 词 元 A 的 游标 不 断 癌 后 移动 ， 直 到 该 游标 所 指 
向 的 文档 编号 不 小 于 next_doc id 为 止 ( 人 名、 人 多) 。 通 过 反复 进行 上 述 
操作 ， 最 终 就 能 达到 所 有 的 游标 都 指 问 同一 个 文档 编号 的 状态 。 


当 next_doc id 等 于 0 时， 说 明文 档 编 号 A 所 指向 的 文档 成 为 了 候选 检 
索 结 果 ， 因 此 随后 还 要 通过 函数 search_phrase0) 来 确认 作为 短语 的 查询 
字符 串 是 否 存在 〈@) 。 如 果 确 实 存在 短语 ， 那 么 就 调用 函数 
calc_tf_idf()， 计 算出 用 于 排序 的 得 分 (@@) ， 并 调用 函数 
add_search_result0， 将 文档 编号 添加 到 检索 结果 的 列表 中 〈@) 。 


接 下 来 继续 向 后 移动 词 元 A 的 游标 好) ， 并 开始 重复 执行 之 前 的 处 
理 过 程 。 


检索 一 结束 ，exit 标签 后 面 的 语句 就 会 被 执行 〈(@) 。 在 执行 的 过 程 
中 ， 既 会 回收 分 配给 所 有 词 元 的 、 用 来 存储 检索 信息 的 存储 空间 ， 又 会 
回收 由 查询 字符 串 生 成 的 词 元 集合 的 信息 。 最 后 ， 在 〈@ 图 ) 的 步 又 中 ， 
我 们 对 检索 结果 按照 得 分 的 高 低 进行 了 降 顺 排列 。 












































解读 疯 数 search_phrase() 的 实现 


下 面 ， 我 们 再 来 看 一 下 用 于 短语 检索 的 函数 search_phrase()。 不 过 ,在 
深入 阅读 源 代码 之 前 ， 需 要 先 稍 微 了 解 一 下 处 理 短 语 检索 的 集 略 。 


假设 文档 中 存在 短语 ， 此 时 构成 短语 的 词 元 出 现 的 位 置 如 下 所 示 。 
11、12、13、14 


86、87、88、89 
从 各 出 现 位 置 中 减 去 其 在 短语 内 的 相对 位 置 后 ， 得 到 的 结果 如 下 所 示 。 





。 当 出 现 位 置 依次 为 11、12、13、14 时 
-> 11、11、11、11 
X11-0=11, 12-1=11, 13-2=11, 14-3=11 
。 当 出 现 位 置 分 别 为 86、87、88、89 时 
—» 86、86、86、86 
※86-0=86, 87-1=86, 88-2=86, 89-3=86 
由 此 可 以 看 出 ， 此 时 所 有 的 出 现 位 置 都 是 相等 的 。 通 过 这 样 的 减法 运 
算 ， 就 可 以 将 检索 短语 的 处 理 过 程 转化 为 “得 找 所 有 词 元 共同 出 现 的 位 
置 ” 这 一 处 理 过 程 了 。 这 与 负责 查找 所 有 词 元 同时 出 现 的 文档 编号 的 孙 
数 search_docs() 所 进行 的 处 理 非常 相似 ， 所 以 说 ， 其 实在 函数 
search_phrase() 中 进行 和 函数 search_docs() 同样 的 处 理 就 可 以 了 。 


下 面 ， 我 们 就 来 梳理 一 下 源 代 码 。 








/** 

* 进行 短语 检索 。 

* @param[in] query_tokens 从 查询 中 提取 出 的 词 元 信息 

* @param[in] doc_cursors 用 于 检索 文档 的 游标 的 集合 

* @return 检索 出 来 的 短语 数量 

*/ 

static int 

search phrase(const query token hash *query tokens, 
doc_ search cursor *doc cursors) 

















int n_ positions = 0@; 
const query_ token value *qt; 
phrase_ search cursor *cursors; 


/* 获取 查询 中 词 元 的 总 数 */ 
for (qt = query tokens; qt; qt = qt->hh.next) { 四 
n_positions += qt->positions count; 


} 


if ((cursors = (phrase search cursor *)malloc(sizeof( 
phrase search cursor) * n positions))) { ©@ 
int i, phrase count = ©; 


phrase_ search cursor *cur,; 
/* 初始 化 游标 */ 
for (i = 0, cur = cursors, qt = query tokens; qt; 
i++，qt = qt->hh.next) { @ 
int *pos = NULL; 
while ((pos = (int *)utarray next(qt->postings list->positions, 
pos))) { ® 
cur->base = *pos; (3 
cur->positions = doc cursors[i].current->positions; 
cur->current = (int *)utarray_ front(cur->positions); 的 
CUr++; 


} 


} 
/* 检索 短语 */ 
while (cursors[6].current) { @ 
int rel position, next rel position; 
rel position = next rel position = *Ccursors[6].current - 
cursors[6].base; 








/* 对 于 除 词 元 A 以 外 的 词 元 ， 不 断 地 向 后 读 取出 现 位 置 ， 直 到 其 偏 移 量 不 小 于 词 元 A 的 
for (cur = cursors + 1, i = 1; i < n positions; cur++, i++) { @ 
for (; cur->current 
&& (*cur->current - cur->base) < rel position; 
cur->current = (int *)utarray next(cur->positions, cur->curren 




















{} 
if (lcur->current) { goto exit; } 























/* 对 于 词 元 A 以 外 的 词 元 ， 知 其 偏 移 量 不 等 于 A 的 偏 移 量 ， 就 退出 循环 */ 
if ((*cur->current - cur->base) != rel position) { 0 

next rel position = *cur->current - cur->base; | 

break; 


} 











} 
if (next rel position > rel position) { 人 
/* 不 断 疝 后 读 取 ， 直 到 词 元 A 的 偏 移 量 不 小 于 next_rel_position 为 止 */ 
while (cursors[6].current && 
(*cursors[6].current - cursors[8].base) < next_rel_position) 
cursors[6].current = (int *)utarray_next( 











cursors[6].positions，cursors[6].current ) ; 


else { 
/* 找到 了 短语 */ 
phrase_count++; @ 
cursors->current = (int *)utarray_next( 
cursors->positions，cursors->current); 仙 ) 
} 
} 
exit: 
free(cursors); 
return phrase count; @ 


return 0; 


} 





首先 ， 我 们 统计 出 了 查询 中 的 词 元 总 数 〈@@) ， 并 为 查询 中 的 每 个 词 元 





都 分 配 了 一 个 结构 体 ， 用 来 表示 用 于 短语 检索 的 游标 8) 。 在 初始 化 
这 些 游标 的 过 程 中 (名 ，@) ， 会 将 词 元 在 查询 中 的 出 现 位 置 存储 到 
cur->base 中 〈635) ， 将 对 词 元 在 文档 中 出 现 位 置 的 引用 存储 到 cur- 
>current 中 (G9D) 。 


查找 短语 的 处 理 过 程 是 在 标 有 G9 的 循环 中 进行 的 。 我 们 沿用 在 讲解 函数 
search_docs() 时 用 到 的 术语 ， 依 然 称 第 一 个 词 元 为 词 元 A。 不 同 的 是 ， 
在 该 函数 中 查找 的 对 象 是 出 现 位 置 的 列表 ， 而 不 是 文档 编号 的 列表 。 
此 在 该 函数 中 使 用 游标 管理 的 是 “在 关联 着 词 元 和 文档 编写 的 出 现 位 置 
列表 中 ， 当 前 指向 的 是 哪个 位 置 "。 第 i 个 词 元 的 游标 存储 在 


cursors[i].current 中 。 


正如 前 文 所 述 ， 对 于 所 有 的 词 元 ， 都 要 从 头 检查 其 在 文档 内 的 出 现 位 
置 。 与 通过 函数 search_docs() 查找 带 有 相同 文档 编号 的 词 元 类 似 ， 在 该 
函数 中 要 查找 的 是 ， 从 各 词 元 的 出 现 位 置 中 减 去 其 在 查询 中 的 出 现 位 置 
后 得 到 的 偏 移 量 完全 相同 的 词 元 。 


有 具体 来 说 ， 就 是 在 人 9 中 用 词 元 A 的 出 现 位 置 减 去 其 在 查询 中 的 出 现 位 
置 ， 得 到 词 元 A 的 偏 移 量 ， 然 后 在 好 的 循环 中 ， 对 除 词 元 A 以 外 的 所 
有 词 元 逐一 进行 相同 的 减法 运算 。 每 完成 一 次 减法 运算 ， 都 要 检查 所 得 
到 的 偏 移 量 是 否 和 词 元 A 的 偏 移 量 相 等 。 如 果 不 相 等 ， 则 说 明 短 语 不 
存在 ， 因 此 要 重新 对 变量 next_rel_position 赋值 ， 以 便 跳 过 没有 必要 处 
理 的 词 元 的 出 现 位 置 (69、G9、 必 、 咱 ) 。 



































当 找 不 到 短语 时 (4《》) ， 由 于 小 于 next_rel_position 的 偏 移 量 都 已 经 搜 
索 过 了 ， 所 以 我 们 要 问 后 移动 词 元 A 的 游标 ， 直 到 其 偏 移 量 超过 
next_rel_position 为 止 (4、4) 。 


如 果 找 到 了 短语 ， 那 么 就 将 用 于 存储 短语 出 现 次 数 的 变量 phrase_count 
的 值 加 1 (4《9〉 ， 并 使 词 元 A 的 游标 指向 其 下 一 个 出 现 位 置 〈 易 ) 。 


由 于 此 时 已 经 知道 了 短语 是 否 存 在 ， 所 以 也 可 以 束 此 结束 处 理 ， 但 是 考 
虚 到 短语 的 出 现 次 数 还 会 用 在 后 面 的 评分 处 理 等 环 市 ， 因 此 我 们 还 是 决 
定 让 处 理 继续 进行 下 去 。 


通过 反复 进行 上 述 循环 ， 即 可 找 出 全 部 的 短语 。 最 后 ， 在 返回 了 找到 的 
短语 个 数 后 ， 就 可 以 结束 处 理 了 (加) 。 


人 至此， 我 们 就 梳理 完了 使 用 倒 排 索引 进行 全 文 搜索 处 理 的 流程 。 如 果 感 
到 难以 理解 ， 不 妨 先 将 下 面 的 大 致 流程 记 在 心中 ， 然 后 再 试 着 梳理 源 代 
码 。 也 可 以 边 梳 理 边 在 纸 上 将 处 理 流程 和 变量 的 值 写 出 来 。 


GD 将 查询 分 割 成 词 元 。 
@ 获取 每 个 词 元 的 倒 排列 表 。 
@@ 从 多 个 倒 排 列表 中 查找 匹配 查询 的 文档 〈 即 在 带 有 相同 文档 编号 的 
倒 排 项 中 ， 判 断 位 置信 息 是 人 否 是 相 邻 的 ) ， 并 将 找到 的 文档 添加 到 作为 
检索 结果 的 文档 集合 中 。 
计算 作为 检索 结果 的 文档 的 得 分 ， 并 基于 该 得 分 对 结果 排序 。 
专栏 
如 何 实现 标签 检索 
在 各 式 各 样 的 Web 服务 中 ， 通 常 都 会 提供 一 种 称 作 “ 标 签 ” 的 功 
能 。 以 Twitter 为 例 ， 在 作为 留言 的 推 文中，“#” 后 面 的 字符 串 就 被 
称 为 主题 标签 (Hashtag) 。 在 Twitter 中 ， 用 户 可 以 看 到 带 有 同一 
主题 标签 的 留言 列表 。 像 这 样 的 标签 检索 ， 通 常 部 是 通过 事先 将 融 


有 特定 标签 的 文档 编号 集合 存储 到 表 中 ， 然 后 使 用 该 表 获 取 带 有 同 
一 标签 的 文档 编号 集合 来 实现 的 。 


























敏锐 的 读者 也 许 已 经 注意 到 了 ， 这 种 实现 方案 其 实 就 是 倒 排 索引 。 
由 于 可 以 将 标签 视 为 一 种 词 元 ， 所 以 只 要 借助 倒 排 索 引 ， 就 可 以 加 
快 标 签 检 索 的 速度 了 。 男 外 ， 由 于 实现 标签 检索 时 不 需要 考虑 出 现 
位 置 的 相关 信息 ， 所 以 使 用 文档 级 别 的 倒 排 文件 就 足够 了 。 


第 5 章 压缩 倒 排 索引 


5-1 压 缩 的 基础 知识 

压缩 倒 排 索引 的 好 处 

在 使 用 倒 排 索引 进行 检索 的 过 程 中 ， 总 检索 时 间 中 的 大 部 分 时 间 往 往 花 
费 在 了 从 二 级 存储 读 取 倒 排 索引 上 。 于 是 ， 就 经 常 可 以 看 到 在 存储 倒 排 
索引 前 ， 对 其 进行 压缩 以 减少 从 二 级 存储 读 取 的 时 间 ， 进 而 使 检索 处 理 
得 以 高 速 运转 的 对 策 


也 就 是 说 ， 我 们 可 以 根据 如 下 原理 ， 通 过 压缩 倒 排 索引 来 加 快 检 索 处 理 


的 速度 。 

从 二 级 存储 中 读 取 部 分 〉 经 过 压缩 的 倒 排 索引 的 时 间 

十 还 原 倒 排 索引 的 时 间 

一 

从 二 级 存储 中 读 取 部 分 ) 尚未 经 过 压缩 的 倒 排 索引 的 时 间 

在 本 节 ， 就 让 我 们 详细 地 看 一 下 有 关 压 缩 倒 排 索引 的 方法 吧 。 
专栏 
压缩 的 目的 


说 到 压缩 技术 ， 特 别 是 在 存储 空间 很 紧张 的 年 代 ， 其 主要 目的 就 是 
减少 存储 空间 的 使 用 。 但 是 ， 对 于 作为 当今 主流 的 二 级 存储 装置 做 
盘 驱 动 右 而 言 ， 其 单位 容量 的 价格 已 经 非常 低廉 了 。 可 以 说 我 们 已 
经 迎 来 了 只 需 500 元 左右 就 可 以 购买 到 存储 容量 为 几 TB 的 磁盘 的 
时 代 了 。 存 储 容量 也 正在 逐渐 转变 为 随手 可 得 的 资源 。 因 此 ， 在 近 
几 年， 使 用 压缩 技术 的 目的 也 正 逐 渐 由 “减少 存储 空间 的 使 用 ”转变 
为 “实现 检索 的 高 速 化 "。 在 检索 时 ， 为 了 填补 处 理 器 和 磁盘 驱动 器 


























在 速度 上 的 兰 距 ， 通 常 都 会 对 索引 进行 压缩 。 也 就 是 说 ， 可 以 将 压 
缩 处 理 看 作 是 一 种 分 担负 载 尝试 ， 通 过 减少 从 二 级 存储 读 出 的 数据 
量 ， 以 及 额外 进行 的 相应 还 原 处 理 ， 即 可 将 检索 处 理 中 集中 在 二 级 
存储 上 的 部 分 负载 转移 到 处 理 需 中 。 


倒 排 索引 的 压缩 方法 
倒 排 索 引 的 压缩 分 为 针对 词典 的 压 纵 和 针对 倒 排 文件 的 压缩 两 种 。 


我 们 可 以 通过 使 用 更 少 的 信息 量 表示 单词 的 集合 来 实现 词典 的 压缩 。 例 
如 ， 对 于 按照 词典 顺序 排列 的 单词 列表 而 言 ， 通 过 避免 重复 存储 相同 的 
前 级 ， 就 可 以 减少 存储 词典 时 所 需 的 必要 存储 空间 。 但 是 ， 在 大 多 数 情 
况 下 ， 由 于 词典 的 大 小 远 远 小 于 倒 排 文件 的 大 小 ， 所 以 一 般 认 为 压缩 词 
典 对 于 加 快 检索 处 理 的 速度 并 没有 太 大 的 贡献 。 因 此 ， 在 本 书 中 也 不 会 
0 0 
文献 3、4。 


而 倒 排 文件 的 压强 ， 可 以 通过 使 用 更 少 的 信息 量 表示 其 构成 要 素来 实 
现 。 构 成 要 素 就 是 指 文档 编写 、 单 词 在 文档 内 的 出 现 次 数 〈(TF，Term 
Frequency， 词 频 ) 以 及 由 单词 在 文档 内 的 偏 移 量 构成 的 整数 数组 。 下 
面 ， 就 让 我 们 详细 地 看 一 下 压缩 倒 排 文件 的 方法 。 


倒 排 文件 的 压缩 方法 


在 一 般 的 程序 中 ， 大 多 数 情况 下 都 会 为 整数 分 配 4 或 8 个 字 节 等 定 长 的 
编码 ， 但 是 在 处 理 倒 排 文件 时 ， 由 于 经 常 要 处 理 大 量 数值 较 小 的 整数 ， 
所 以 为 了 使 用 更 少 的 信息 量 来 表示 整数 ， 通 党 都 会 采用 长 度 可 变 而 非 回 
定 的 编码 方式 。 为 外 ， 由 于 倒 排 文件 中 的 整数 序列 通 闸 部 是 按照 文档 编 
写 或 文档 内 偏 移 量 的 升序 排列 的 ， 所 以 对 于 这 样 的 整数 序列 ， 一 旦 计算 
出 了 前 后 两 个 整数 的 差 值 ， 就 可 以 使 用 更 小 的 数值 《更 少 的 信息 量 ) 来 
表示 其 中 的 整数 了 。 也 就 是 说 正如 预期 的 那样 ， 使 用 可 变 长 度 的 编码 确 
实 可 以 带 来 大 幅度 的 压缩 。 在 本 市 ， 我 们 会 介绍 几 种 具有 代表 性 的 、 用 
于 对 倒 排 文件 进行 编码 的 可 变 长 编码 。 


1 unary 编码 


unary 编码 是 一 种 简单 直观 的 编码 方法 ， 对 于 整数 x (x >0) 来 说 ， 只 
需要 用 x 个 “1” 和 1 个 “0” 即 可 表示 这 个 整数 。 以 十 进 制 数 的 10 为 例 ， 





























它 的 unary 编码 就 是 “11111111110”。 而 当 x 三 0 时 ， 其 unary 编码 为 
0。 


1 gamma 编码 和 delta 编码 


在 gamma 编码 中 ， 我 们 首先 要 将 整数 x (x > 0) 分 解 为 2* 十 qd (e = 
logyx，0 < d 二 2e) 的 形式 ， 然 后 用 unary 编码 表示 e 十 1， 用 比特 宽度 
为 e 的 二 进 制 编码 1 表示 d。 

















1 所 谓 二 进 制 编码 ， 就 是 一 种 用 二 进 制 数 字 0 和 1 表示 数据 的 方式 。 这 种 方式 也 是 计算 机 内 部 
标准 的 数据 存储 方式 。 译 者 注 

















还 是 以 整数 10 为 例 ， 由 于 e = log10x3， 所 以 把 d= 二 10- == 2 的 二 
进 制 编码 “010” 接 在 e 十 1 二 3 十 1 二 4 的 unary 编码 “11110” 之 后 ， 就 
可 以 得 到 10 的 gamma 编码 ， 即 “11110010”。 


而 delta 编码 是 一 种 把 在 gamma 编码 中 用 unary 编码 的 部 分 再 次 进行 
gamma 编码 的 编码 方式 。 


1 variable-byte 编码 (byte-aligned 编码 ) 


variable-byte 编码 是 一 种 用 由 多 个 字 节 构成 的 序列 表示 整数 的 编码 方 
式 。 在 对 整数 编码 时 ， 各 个 字 节 的 构成 如 下 所 示 。 


。 用 最 右 侧 的 7 个 比特 表示 数值 


。 用 最 左 侧 的 1 个 比特 表示 是 否 需 要 用 下 一 个 字 节 来 继续 表示 该 整 
数 的 剩余 部 分 (需要 时 将 该 比特 设 为 1) 


这 种 编码 方式 可 以 根据 字 市 数 的 多 少 ， 分 别 表示 如 下 的 整数 


。1 字 节 : 0~2”-1 (用 7 个 比特 来 存储 数据 ) 
e。 2 字 节 : 0~21 -1 (用 14 个 比特 来 存储 数据 ) 
。3 字 节 : 0~2?1-1 (用 21 个 比特 来 存储 数据 ) 














例如 ，10 的 variable-byte 编码 是 “00001010”。 


而 1030 的 variable-byte 编码 是 “10000100:00000110”( 为 了 便于 查看 ， 
我 们 在 两 个 字 节 间 插 入 了 一 个 “:”) 。 


与 以 字 节 为 单位 进行 压缩 的 variable-byte 编码 相 比 ， 由 于 delta 编码 和 
gamma 编码 都 是 在 比特 级 别 上 进行 编码 的 编码 方式 ， 所 以 可 以 达到 更 好 
的 压缩 率 。 但 是 ， 在 解码 时 ， 由 于 必须 进行 位 操作 ， 所 以 后 者 的 处 理 速 
度 可 能 不 如 使 用 variable-byte 编码 时 快 。 因 此 ， 为 了 加 快 检索 处 理 的 速 
度 ， 也 有 很 多 项 目 会 在 压缩 倒 排 文件 时 采用 variable-byte 编码 。 


由 于 以 上 这 些 编码 方式 本 质 上 都 是 通过 相同 的 策略 对 整数 进行 编码 的 ， 
所 以 统称 为 无 参数 的 编码 方式 (Parameterless Codes)。 


与 此 相对 ， 还 有 为 一 类 需要 引入 参数 ， 并 根据 参数 的 值 改变 其 行为 的 编 
码 方 式 。 下 面 ， 我 们 就 来 介绍 一 下 这 种 编码 的 代表 一 一 Golomb 编码 。 


1 Golomb 编码 


使 用 Golomb 编码 对 整数 x(x > 0) 进行 编码 时 ， 要 使 用 参数 m (> 1) 
将 x 分 解 为 如 下 形式 。 




















x 二 mxgqg 十 r 


其 中 ，g 为 x 除 以 m 的 商 , r 为 余数 。 接 下 来 需要 对 qd 进行 unary 编 

人 码 ， 对 r 进行 如 下 所 示 的 编码 ， 最 后 再 将 这 两 个 编码 拼接 在 一 起 即 可 得 
到 Golomb 编码 。 在 这 个 过 程 中 , 令 b = 二 logppm( 向 上 取 整 ) ，+ 二 2?- 
mm。 


。 当 0<r < 过 t 时 ， 用 比特 宽度 为 就-I 的 二 进 制 编码 表示 
。 当 t<r 二 m 时 ， 用 比特 宽度 为 b 的 二 进 制 编码 表示 r 十 t 


下 面 以 9 为 例 ， 当 m= 二 5 时 ,由 于 9 二 5x1 十 4 (q 二 1、r 二 4、m= 
5) ， 所 以 可 以 得 出 




















b 一 ]og27m = log»5 NA 3 


和 


因此 ， 我 们 要 对 gq (1) 进行 unary 编码 ， 对 r (4) 十 t+ (3) 进行 比特 宽 
度 为 bp (3) 的 三 进 制 编码 ， 最 后 将 二 者 拼接 起 来 后 就 得 到 了 9 的 
Golomb 编码 “10:111”。 





男 外 ， 当 m 二 1 时 ，Golomb 编码 等 同 于 unary 编码 ， 当 m 二 2*(k=1, 2， 
3...) 时 ，Golomb 编码 等 同 于 一 种 叫 作 rice 的 编码 。 也 就 是 说 ，unary 编 
码 和 rice 编码 都 是 Golomb 编码 的 特殊 形式 。 


由 于 我 们 在 wiser 中 实现 的 是 Golomb 编码 ， 所 以 在 后 面 的 章节 还 会 再 
进一步 讲解 它 。 


压缩 的 原理 

倒 排 文件 为 什么 能 被 压缩 呢 ? 

下 面 我 们 通过 举例 来 说 明 。 请 试 着 考虑 一 下 如 何 用 二 进 制 表示 “1、2、 
3、4 这 4 个 数字 。 由 于 只 有 4 个 数字 ， 所 以 用 2 个 比特 应 该 就 可 以 表 
示 了 。 如 下 所 示 ， 在 这 里 我 们 为 每 个 数字 都 分 配 了 等 冤 的 比特 序列 。 


1:00 








2:01 
3:10 
4:11 


此 时 ,假设 有 [1，3，1，1] 这 样 一 个 整数 序列 ， 厦 使 用 上 面 的 比特 序列 
表示 该 整数 数列 ， 就 需要 2 比特 ) x 4 (个) = 二 8 比特 。 


下 面 ， 假 设 我 们 知道 了 在 该 整数 序列 中 ， 出 现 1 的 概率 要 比 出 现 其 他 数 
字 的 概率 高 。 那 么 ， 更 聪明 的 做 法 就 是 将 更 短 的 比特 序列 分 配给 1。 


于 是 ， 基 于 这 种 想法 ， 我 们 改变 了 比特 序列 的 分 配方 式 ， 新 的 分 配 结 宁 
如 下 所 示 。 此 时 ， 为 了 判断 比特 序列 中 数字 间 的 边界 ， 我 们 需要 为 2、 
4 分 配 3 个 比特 ， 这 一 点 还 请 诸位 注意 。 





1:0 

2:100 
3:101 
4:110 


基于 这 种 分 配方 式 ， 对 于 同样 的 整数 序列 [1，3，1，1]， 用 新 分 配 的 比 
特 序列 表示 的 话 ， 就 只 需要 


1 (比特 ) x3 (个 ) 十 3 (比特 ) x1 (个 ) = 6 比特 ) 
与 之 前 相 比 减少 了 2 个 比特 。 
实际 上 上， 压缩 倒 排 文件 时 应 用 的 也 是 与 此 相同 的 原理 。 也 就 是 说 ， 之 前 


万 讲解 的 各 种 编码 方法 ， 都 是 在 预测 出 “ 倒 排 列表 中 的 整数 序列 是 以 哪 
再 基于 这 种 预 训 ， 答 试 对 整数 序列 进行 压缩 





例如 ， 对 于 整数 x 而 言 ， 由 于 gamma 编码 中 的 unary 编码 部 分 占用 1 十 
logx 个 比特 ， 二 进 制 编码 部 分 占用 logx 个 比特 ， 所 以 表示 x 需要 1 十 
2logx 个 比特 。 根 据 香农 〈Claude Elwood Shannon) 提出 的 信息 量 的 定 
~ * 并 基于 整数 x 的 编码 长 度 ， 我 们 求 得 了 如 下 所 示 的 整数 x 的 出 现 概 














?香农 对 信息 量 作出 了 如 下 定义 ， 当 某 个 事件 EE 发 生 的 概率 为 p 时 ， 该 事件 所 含有 的 信息 量 为 - 
logpp。 昌 然 不 够 严谨 ， 但 是 可 以 这 样 通俗 地 解释 一 下 : 当 有 n 个 事件 将 要 发 生 时 ， 这 些 事 件 
可 以 用 log2n 二 -log21/n 表示 。 由 于 其 中 每 个 事件 发 生 的 概率 都 为 mn， 所 以 把 这 个 概率 设 为 
p， 就 可 以 用 -log,p 表示 了 。 
































lx =- log Pr [x] 
Pr[x] =2 
~ 2-(1 十 2log x) 


Pr gamma [x] 


一 1/2 x° 


这 是 gamma 编码 默认 具备 的 概率 分 布 。 也 就 是 说 ， 在 gamma 编码 中 ， 
我 们 是 以 整数 x 会 以 1/2x* 的 概率 出 现 为 前 提 进 行 编码 的 。 整 数 序列 中 
的 预期 概率 分 布 与 实际 整数 序列 的 分 布 越 接近 ， 编 码 方法 所 能 达到 的 压 


简 而 言 之 ， 人 们 已 经 证 明 出 ， 在 使 用 gamma 编码 等 称 为 Universal 编码 
的 编码 方式 对 整数 序列 进行 压缩 时 ， 无 论 整 数 序列 的 分 布 如何 ， 编 码 的 
长 度 都 是 最 佳 编 码 长 度 的 常数 倍 。 而 且 ， 在 压缩 由 文档 编号 的 差 值 构成 
的 整数 序列 时 ， 由 于 文档 编号 的 差 值 序列 遵从 几何 分 布 ， 所 以 通过 使 用 
.0 上 拥有 几何 分 布 的 Golomb 编码 进行 编码 ， 可 以 达到 更 高 的 
压缩 率 。 




















5-2 ”实现 wiser 中 的 压缩 功能 
压缩 功能 源 代码 的 概要 


下 面 ， 我 们 再 来 看 一 下 在 wiser 中 实现 了 压缩 功能 的 那 一 部 分 源 代码 。 
另外 ， 本 书 在 讲解 的 过 程 中 ， 会 将 压缩 称 为 编码 ， 将 解压 缩 称 为 解码 。 


在 wiser 中 ， 我 们 通过 Golomb 编码 实现 了 编码 和 解码 ， 并 通过 在 函数 
update_postings() 中 调用 的 函数 encode_postings() 和 decode_postings() 实 
en 下 面 就 让 我 们 分 别 看 一 下 这 两 个 函数 的 源 
fy 








/** 
* 对 倒 排 列表 进行 转换 或 编码 






































* @param[in] env 存储 着 应 用 程序 运行 环境 的 结构 体 
* @param[in] postings 转换 或 编码 前 的 倒 排列 表 
* @param[in] postings_len 转换 或 编码 前 的 倒 排列 表 中 的 元 素数 
* @param[out] postings_e 转换 或 编码 后 的 倒 排列 表 
* @retval 6 成 功 
*/ 
static int 
encode postings(const wiser env *env, 
const postings list *postings, const int postings_ len, 
buffer *postings_e) 























switch (env->compress) { 
case compress_ none: 

return encode postings none(postings, postings_ len, postings e); 
case compress_ golomb: 

return encode postings golomb(db get document_ count(env), 

postings, postings len, postings e); 

default: 

abort(); 


/** 

* 对 倒 排 列表 进行 还 原 或 解码 

* @param[in] env 存储 着 应 用 程序 运行 环境 的 结构 体 

* @param[in] postings_e 竺 还原 或 解码 的 倒 排列 表 

* @param[in] postings_e_size 竺 还原 或 解码 的 倒 排列 表 的 字 节 数 
* @param[out] postings 还 原 或 解码 后 的 倒 排列 表 






































* @param[out] postings_len 还 原 或 解码 后 的 倒 排 列表 中 的 元 素数 
* @retval 6 成 功 
*/ 
static int 
decode postings(const wiser env *env, 
const char *postings e, int postings e size, 
postings list **postings, int *postings_ len) 


switch (env->compress) { 
case compress_none: 
return decode postings none(postings e, postings e size, 
postings, postings_len); 
case compress_ golomb: 
return decode postings golomb(postings e, postings e size, 
postings, postings_len); 
default: 
abort(); 
} 
} 








这 两 个 函数 会 根据 是 否 要 进行 编码 的 标志 (env->compress) 去 调用 相应 
的 编 但、 解码 函数 。 无 需 对 倒 排 列表 进行 编码 时 ， 调 用 的 是 下 面 这 两 个 


函数 。 
。 encode_postings_nonel() 


e。 decode_postings_nonel() 


需要 通过 Golomb 编码 进行 编码 、 解 码 时 ， 调 用 的 是 下 和 面 这 两 个 函数 。 





。 encode_postings_golomb() 


e。 decode_postings_golomb() 


了 了解 无 需 进 行 压缩 时 的 操作 


在 了 解 如 何 通 过 Golomb 编码 进行 编码 处 理 之 前 ， 让 我 们 先 来 看 一 下 在 
无 需 编码 时 被 调用 的 函数 encode_postings_none() 和 


decode_postings_none()。 


函数 encode_postings_none() 的 作用 是 将 倒 排 列表 转换 成 字 节 序列 。 也 


就 是 将， 该 函数 会 先 从 倒 排列 表 的 各 元 系 中 取出 文档 编号 、 位 置信 息 的 
数量 以 及 位 置信 息 的 数组 ， 然 后 再 将 这 些 数据 以 二 进 制 的 形式 写 入 缓冲 
区 。 


* 将 倒 排列 表 转 换 成 字 节 序列 

* @param[in] postings 倒 排 列表 

* @param[in] postings_len 倒 排 列表 中 的 元 素数 
* @param[out] postings_e 转换 后 的 倒 排 列表 

* @retval 6 成 功 

*/ 


static int 








encode postings none(const postings list *postings, 
const int postings_ len, 
buffer *postings_e) 


const postings list *p; 
LL_FOREACH(postings, p) {©@ 
int *pos = NULL; 
append_buffer(postings e, (void *)&p->document id, sizeof(int)); @ 
append_ buffer(postings e, (void *)&p->positions count, sizeof(int)); ©@ 
while ((pos = (int *)utarray next(p->positions, pos))) { @ 
append_ buffer(postings e, (void *)pos, sizeof(int)); © 
} 
} 


return 0; 





首先 ， 我 们 通过 调用 utarray 的 宏 LL_FOREACH()， 从 倒 排 列表 中 逐一 
取出 各 个 文档 编号 的 出 现 位 置信 息 (@) 。 


然后 ， 将 文档 编号 和 存放 出 现 位 置信 息 的 数组 的 大 小 (出现 位 置 的 数 
量 ) 分 别 添加 到 缓冲 区 中 (@、@) ， 接 着 将 各 个 出 现 位 置 (@) 也 添 
加 到 该 缓冲 区 中 (@) . 


而 在 函数 decode_postings_none() 中 进行 的 是 函数 
encode _postings _ honeQ 用 这 保全 即 依次 取出 文档 编号 、 位 置信 息 的 数 
量 以 及 各 个 位 置信 息 .已 、。 








/** 


* 将 字 市 序列 的 倒 排 列表 还 原 为 倒 排 列表 

















* @param[in] postings_e 竺 还 原 的 倒 排列 表 〈 字 节 序 列 ) 


* @param[in] postings_e_size 竺 还原 的 倒 排列 表 〈 字 节 序 列 ) 中 的 元 素数 
* @param[out] postings 还 原 后 的 倒 排列 表 
* @param[out] postings_len 还 原 后 的 倒 排列 表 中 的 元 素数 
* @retval 6 成 功 
* 
*/ 

static int 

decode postings none(const char *postings e, int postings e size, 

postings list **postings, int *postings_ len) 








让 




















{ 
const int *p, *pend; 
*postings = NULL; 
*postings_ len = 6; 
for (p = (const int *)postings e, 
pend = (const int *)(postings e + postings e size); p < pend;) { 
postings list *pl; 
int document id, positions count; 
document id = *(p++); 
positions count = *(p++); 
if ((pl = malloc(sizeof(postings list)))) { 
int i; 
pl->document id = document id; 
pl->positions count = positions count; 
utarray_new(pl->positions, &ut int icd); 
LL_APPEND(*postings, pl1); 
(*postings_ len)++; 
/* decode positions */ 
for (i = 60; i «< positions count; i++) { 
utarray_push_back(pl->positions, p); 
p++; 
} 
} else { 
p += positions count; 
} 
} 
return ©; 
} 





抓 住 Golomb 编码 的 要 点 
无 需 对 倒 排列 表 进 行 编码 时 ， 我 们 只 需 将 被 直接 转换 成 了 字 节 序列 的 倒 





排列 表 写 入 数据 库 即 可 。 而 需要 对 倒 排列 表 进 行 编码 时 ， 就 要 先 对 以 下 


3 种 取 自 倒 排 列表 的 信息 进行 编码 ， 然 后 再 将 转换 成 字 市 序列 后 的 数据 
写 入 数据 库 。 


。 已 存储 的 文档 编号 
。 位 置信 息 的 数量 
。 位 置信 息 的 数组 


仅 看 源 代 码 的 话 ， 也 许 还 是 难以 轻松 理解 Golomb 编码 的 过 程 ， 那 么 我 
们 就 来 看 一 个 具体 的 示例 ， 边 看 边 理解 在 Golomb 编码 的 过 程 中 都 会 进 
行 怎 样 的 处 理 吧 。 


假设 有 [13，22，23，40] 这 样 一 个 文档 编写 的 序列 ， 我 们 试 着 考虑 一 下 
应 该 如 何 通 过 Golomb 编码 对 其 进行 编码 。 首 先 要 计算 出 这 个 整数 序列 
中 的 所 有 后 项 与 前 项 的 差 值 。 而 对 于 第 一 个 数字 ， 则 要 计算 它 和 0 的 差 
值 。 于 是 就 得 到 了 [13，9，1，17] 这 样 一 个 整数 序列 。 接 下 来 ， 将 所 有 
的 数字 都 减 去 1。 因 为 这 样 可 以 利用 上 文档 编号 序列 中 没有 重复 的 编 

号 ， 并且 所 有 的 前 后 项 之 差 都 是 大 于 1 的 数值 这 个 特点 ， 使 整数 序列 可 
以 用 更 小 的 数值 表示 。 于 是 ， 我 们 又 得 到 了 [12，8，0，16] 这 样 一 个 整 
数 序列 。 接 下 来 ， 就 开始 用 Golomb 编码 对 这 个 整数 序列 进行 编码 。 


正如 前 文 所 述 ， 进 行 Golomb 编码 时 要 使 用 参数 m。 我 们 都 知道 ， 对 于 
参数 mm， 将 它 的 值 设 为 待 编码 的 整数 序列 的 平均 值 可 以 得 到 较 高 的 压缩 
率 。 因 此 ， 在 本 例 中 我 们 将 m 的 值 设 为 该 整数 序列 的 平均 值 9。 


如 下 所 示 ，Golomb 编码 使 用 了 参数 m 以 及 q 和 r 两 个 整数 来 表示 一 个 
整数 n。 整 数 b 和 t 用 于 对 整数 r 进行 编码 ， 其 取 值 由 m 决定 (b 二 
log2m 向 上 取 整 , 1 二 22-m) 。 当 m= 二 9 时 , b= 二 4、t 二 7。 

















n= 二 qxm 十 r 

1 用 Golomb 编码 对 整数 序列 进行 编码 

下 面 就 让 我 们 开始 用 Golomb 编码 对 整数 序列 [12，8，0，16] 进行 编码 
吧 。 


。 对 第 1 个 整数 进行 编码 


首先 ， 从 整数 序列 中 取出 第 一 个 整数 12。 然 后 用 12 除 以 m 并 舍 去 
小 数 部 分 ， 得 出 了 q 的 值 为 1。 


接 下 来 开始 编码 ， 首 先 我 们 用 unary 编码 来 表示 d 的 值 。unary 编 
码 是 一 种 通过 将 工 个 0 附加 到 n 个 连续 的 1 之 后 来 表示 数值 n 的 编 
人 也 就 是 说 ， 用 unary 编码 表示 1 的 话 ， 得 到 的 比特 序列 是 
接 下 来 ， 计 算 12 除 以 m 的 余数 ， 又 得 到 了 的 值 为 3。 
表示 r 时 要 从 以 下 2 种 模式 中 选择 一 种 。 
o 当 r 小 于 t 时 
-用 比特 宽度 为 b-1 的 二 进 制 比 特 序列 表示 7 的 值 
o 当 r 不 小 于 t 时 
-用 比特 宽度 为 b 的 二 进 制 比 特 序列 表示 7r 十 t 的 值 


由 于 此 时 rr 过 上 (3 7) ， 所 以 要 用 3 位 二 进 制 数 表 示 3， 再 用 得 
到 的 比特 序列 “011” 来 表示 的 值 。 


至 此 为 止 ， 我 们 得 到 的 比特 序列 为 “10011”。 

对 第 2 个 整数 进行 编码 

下 面 ， 从 整数 序列 取出 第 二 个 整数 8。 此 时 g = 二 0, r= 二 8。 用 
unary 编码 表示 q， 得 到 的 比特 序列 为 “0”。 由 于 r>t (8 二 7) ， 所 
以 要 用 4 个 比特 的 比特 序列 “1111? 来 表示 了 十 ts 

至 此 为 止 ， 我 们 得 到 的 比特 序列 为 “10011011:11”。 为 了 便于 阅读 ， 
我 们 在 每 8 个 比特 之 后 都 插入 了 一 个 “:”， 作 为 字 节 间 的 边界 〈 余 
同 )。 

对 第 3 个 整数 进行 编码 


接 下 来 我 们 取出 了 第 3 个 整数 0， 并 按照 之 前 的 方法 ， 求 出 了 g 和 
r 的 值 。 此 时 q = 0, r 二 0。 用 unary 编码 表示 q， 得 到 的 比特 序 








列 为 0。 由 于 r<t (0 过 7) ， 所 以 要 用 由 3 个 比特 的 比特 序 
列 “000” 来 表示 r 的 值 。 


至 此 为 止 ， 我们 得 到 的 比特 序列 为 “10011011:110000”。 

对 第 4 个 整数 进行 编码 

最 后 ， 我 们 取出 了 最 后 一 个 整数 16。 此 时 ,gq 二 1, 7 三 7。 用 
unary 编码 表示 qg， 得 到 的 序列 为 10。 由 于 rt (7 三 7) ， 所 以 要 
用 由 4 个 比特 表示 的 比特 序列 “1110” 来 表示 十 t。 

最 终 我 们 得 到 的 比特 序列 为 “10011011:11000010:1110”。 


至 此 ， 对 该 整数 序列 的 Golomb 编码 就 结束 了 。 可 以 看 出 ， 最 终 只 
需要 2.5 个 字 节 即 可 表示 经 过 排序 的 整数 序列 [13，22，23，40]。 


在 存储 这 2.5 个 字 节 的 比特 序列 时 ， 为 了 以 1 个 字 节 (= 二 8 个 比 
特 ) 为 最 小 单位 ， 我 们 在 最 后 填充 了 4 个 值 为 0 的 比特 ， 填 充 后 的 
比特 序列 为 “10011011:11000010:11100000”。 


1 将 比特 序列 解码 成 原先 的 整数 序列 


下 面 ， 再 让 我 们 试 试 能 人 否 将 刚刚 经 过 编码 的 比特 序列 解码 为 原先 的 整数 
序列 吧 。 解 码 时 要 进行 与 编码 时 相反 的 操作 。 


要 想 解 码 ， 必 须 事先 知道 经 过 编码 的 整数 个 数 以 及 参数 m 的 取 值 。 在 
这 里 ， 我 们 已 知 比特 序列 中 存储 了 4 个 整数 ， 并 且 参 数 m 的 值 是 9。 


。 对 第 1 个 整数 进行 解码 


首先 ， 要 从 比特 序列 的 起 始 位 置 开始 查找 值 为 0 的 比特 。 第 2 个 比 
特 的 值 束 是 0。 如 采 第 个 比特 的 值 为 0， 那 么 就 将 从 碍 找 的 起 始 
位 置 到 第 mn -1 个 比特 之 间 的 数值 作为 qg9， 用 unary 编码 进行 解码 。 


然后 从 刚 找 到 的 值 为 0 的 比特 开始 ， 再 向 后 读 取 b-1 个 (3 个 ) 比 
特 ， 得 到 比特 序列 “011”。 将 用 二 进 制 表示 的 011 转换 为 十 进 制 的 
整数 后 ， 得 到 的 结果 是 3。 由 于 求 得 的 整数 3 小 于 t (7) ， 所 以 残 
直接 将 求 得 的 数值 作为 r 的 值 。 因 此 , r = 3。 








既然 已 经 知道 了 3 个 参数 m、g 和 rr 的 取 值 ， 那 么 就 可 以 算出 1x9 
十 3 = 二 12。 由 此 就 正确 地 解 出 了 第 一 个 整数 12。 


至 此 ， 我 们 就 得 到 了 [12] 这 样 一 个 整数 序列 。 
对 第 2 个 整数 进行 解码 


接 下 来 继续 寻找 值 为 0 的 比特 。 正 好 第 一 个 比特 就 是 0。 因 此 gq = 
0。 


然后 继续 向 后 读 取 b-1 个 (3 个 比特， 得 到 了 比特 序列 “111”。 
二 进 制 的 “111” 即 十 进 制 的 7。 


由 于 求 得 的 数值 7 不 小 于 t (7) ， 所 以 还 要 再 读 取 1 个 比特 。 即 最 
终 读 取 到 的 比特 序列 是 “1111”。 二 进 制 的 “1111” 即 十 进 制 的 15。 接 
下 来 只 需 再 减 去 t 即 可 求 得 r 的 值 ， 即 r= 二 15-t 二 15-7 二 8。 
根据 参数 m、gq 和 r， 即 可 解 出 第 二 个 整数 ， 即 0x9 十 8 三 8。 

至 此 ， 我 们 得 到 的 数列 是 [12，8]。 

对 第 3 个 和 第 4 个 整数 进行 解码 


只 再 进行 同样 的 运算 《请 务必 杀 目 计算 一 下 ) ， 即 可 进一步 解 出 0 
和 16 两 个 整数 。 


由 于 已 知 存储 了 4 个 整数 ， 所 以 解码 过 程 可 以 就 此 结束 。 


我 们 最 终 得 到 了 整数 序列 [12，8，0，16]。 这 说 明 经 过 Golomb 编 
码 后 的 比特 序列 能 够 被 正确 地 解码 。 
加 上 前 后 项 差 值 后 再 将 各 个 整数 加 1 


由 于 这 个 整数 序列 中 的 每 个 整数 ( 除 第 一 个 整数 以 外 ) 其 实 都 是 与 
前 1 个 整数 的 差 值 ， 所 以 我 们 还 要 将 这 个 差 值 加 到 每 个 整数 上 。 然 
后 还 要 再 对 所 有 整数 都 加 上 1。 至 此 我 们 就 得 到 了 原先 的 整数 数列 
[13，22，23，40|]。 


解读 Golomb 编码 中 的 编码 处 理 











既然 已 经 了 解 了 Golomb 编码 的 概念 ， 下 面 我 们 惑 来 实际 了 解 一 下 函数 


encode_postings_golomb()。 





/** 
* 对 倒 排 列表 进行 Golomb 编 码 
* @param[in] documents_count 文档 的 总 数 
* @param[in] postings 编码 前 的 倒 排 列表 



































NS 


* @param[in] postings_len 编码 前 倒 排 列表 中 的 元 素 个 数 

* @param[out] postings_e 编码 后 的 倒 排 列表 

* @retval 6 成 功 

*/ 

static int 

encode postings golomb(int documents _ count, 
const postings list *postings, const int postings le 
buffer *postings_e) 





























{ 


const postings list *p; 


append_ buffer(postings e, &postings len, sizeof(int)); @ 
if (postings && postings len) { 

int m, b, t; 

m = documents count / postings len; @ 

append_ buffer(postings e, &m, sizeof(int)); @ 

calc_ golomb params(m, &b, 8&t); e@ 

{ 


int pre document id = 0@; 


LL_FOREACH(postings, p) {©@ 
int gap = p->document id - pre document id - 1; @ 
golomb encoding(m, b, t, gap, postings e); @ 
pre_document id = p->document id; 


} 


append_ buffer(postings e, NULL, 606); @ 
} 
LL_FOREACH(postings, p) { @ 
append_ buffer(postings e, &p->positions count, sizeof(int)); 
if (p->positions && p->positions count) { 
const int *pp; 
int mp, bp, tp, pre position = -1; 


pp = (const int *)utarray_back(p->positions); @ 

mp = (*pp + 1) / p->positions count; @ 

calc golomb params(mp, &bp, &tp); @ 

append_ buffer(postings e, &mp, sizeof(int)); 

pp = NULL; 

while ((pp = (const int *)utarray next(p->positions, pp))) { 


int gap = *pp - pre_position - 1; 
golomb_encoding(mp，bp，tp，gap，postings e); 
pre_position = *pp; 


} 
append_ buffer(postings e, NULL, 08); 
} 


return 0; 


} 








在 Gdomb 编码 中 ， 由 于 要 使 用 整数 序列 中 前 后 项 的 差 值 ， 所 以 我 们 要 
对 文档 编号 和 出 现 位 置 分 别 进行 编码 。 


首先 ， 将 倒 排列 表 中 包含 的 文档 数 存 储 起 来 (@) 。 
接 下 来 ， 计 算出 用 于 对 文档 编号 的 差 值 序列 进行 Golomb 编码 的 参数 m 








的 取 值 〈@) 。 在 这 里 ， 我 们 使 用 了 文档 编号 差 值 的 平均 值 作 为 参数 m 
的 取 值 。 文 档 编 号 差 值 的 平均 值 可 以 使 用 文档 总 数 除 以 倒 排 列表 中 包含 
的 文档 数 计算 得 出 。 由 于 在 解码 时 还 要 用 到 参数 m， 所 以 在 这 里 我 们 还 
要 先 将 参数 m 存储 起 来 (@) 。 


接 下 来 ， 计 算出 由 参数 m 唯一 决定 的 参数 b 和 + 的 取 值 (b = log2m 向 
上 取 整 , t= 二 2?-m) (@)， 


然后 逐一 取出 倒 排列 表 中 的 文档 编号 〈 四 ) 。 每 取出 一 个 文档 编号 ， 束 
计算 其 与 刚刚 存储 的 文档 编号 的 差 值 (@) 。 随 后 用 函数 
golomb_encoding() 对 计算 结果 进行 编码 〈@) ， 最 后 以 比特 为 单位 将 编 
码 结果 添加 到 变量 postings_e 中 。 我 们 先 继续 往 下 看 ， 稍 后 再 讲解 函数 
golomb_encodingg0) 的 实现 过 程 。 


接 下 来 ， 再 次 通过 函数 append_buffer()， 将 以 比特 为 单位 的 信息 统一 为 
以 字 节 为 最 小 单位 的 信息 (@) 。 

在 标 有 四 的 循环 中 ， 又 对 由 词 元 先后 出 现 位 置 的 差 值 构成 的 整数 序列 进 
行 了 编码 。 虽 然 基 本 的 流程 与 对 文档 编号 进行 编码 的 流程 大 致 相同 ， 但 
是 由 于 词 元 在 每 个 文档 中 的 出 现 次 数 都 不 相同 ， 所 以 要 对 每 个 文档 单独 
计算 Golomb 编码 中 的 参数 m。 


在 @ 力 的 步骤 中， 通过 调用 能 返回 数组 中 最 后 一 个 元 素 的 函数 

















utarray_back()， 获 取 了 词 元 在 文档 中 最 后 一 次 出 现 的 位 置 。 


接 下 来 ， 用 词 元 在 文档 中 最 后 一 次 出 现 的 位 置 除 以 词 元 在 文档 中 的 出 现 
0 计算 出 了 对 出 现 位 置 进 行 编码 时 需要 用 到 的 参数 m (变量 mp) 
(DB). 


在 @ 全 的 步骤 后 ， 我 们 又 使 用 了 与 之 前 从 和 @ 到 图 对 文档 编号 进行 编码 时 相 
同 的 流程 ， 对 出 现 位 置 数 组 中 的 整数 进行 了 编码 。 








1 了 浮 数 golomb_encoding() 
下 面 ， 我 们 来 看 一 下 负责 实际 编码 工作 的 函数 golomb_encoding()。 


/** 
* 用 Golomb 编 码 对 1 个 数值 进行 编码 
* @param[in] m Golomb 编 码 中 的 参数 m 
* @param[in] b Golomb 编 码 中 的 参数 bp。ceil(log2(m)) 
* @Oparam[in] t pow2(b) - m 
* @param[in] n 待 编码 前 的 数值 
* @param[out] buf 编码 后 的 数据 
*/ 
static inline void 
golomb encoding(int m, int b, int t, int n, buffer *buf) 
{ 





















































int i; 
/* encode (n / m) with unary code */ 
for (i = n / m; i; i--) { append buffer bit(buf, 1); } @ 
append buffer bit(buf, 606); @ 
/* encode (n % m) */ 
if (m > 1){e@ 

int r= n%m; 

if (r < t){{ 

for (i =1¢<x< (b - 2); i; i >>= 1) { 
append buffer bit(buf, r & i); 


} 
} else { 
rr += 七 ; 
for (i =1<x< (b - 1); i; i >>= 1) { 
append buffer bit(buf, r & i); 





首先 ， 通 过 unary 编码 对 n/m 的 结果 进行 编码 〈( 国 ) ， 然 后 通过 函数 
append_buffer_bit() 将 编码 后 的 比特 序列 写 入 到 缓冲 区 中 “ 


i 从 团 的 步骤 开始 ， 对 由 m % m 计算 出 的 数值 r 进行 了 编码 ， 并 
将 结果 也 号 入 到 子 稻 站 区 中? 


解读 Golomb 编码 的 解码 处 理 


下 面 ， 让 我 们 再 来 看 一 下 函数 decode_postings_golomb()。 该 函数 的 作用 
是 将 经 过 Golomb 编码 后 的 二 进 制 序列 解码 为 倒 排列 表 。 





/** 
* 对 经 过 Golomb 编 码 后 的 倒 排 列表 进行 解码 

















* @param[in] postings_e 经 过 Golomb 编 码 后 的 倒 排 列表 
* @param[in] postings_e_size 经 过 Golomb 编 码 后 的 倒 排 列表 中 的 元 素数 
* @param[out] postings 解码 后 的 倒 排 列表 
* @param[out] postings_len 解码 后 的 倒 排 列表 中 的 元 素数 
* @retval 6 成 功 
*/ 

static int 

decode postings golomb(const char *postings e, int postings e size, 

postings list **postings, int *postings_len) 


让 






































{ 
const char *pend; 
unsigned char bit; 


pend = postings e + postings e size; 
bit = 6x806; @ 

*postings = NULL; 

*postings_ len = 6; 


int i, docs count; 
postings list *pl; 
{ 


int m, b, t, pre document id = ©; 


docs count = *((int *)postings e); @ 

postings e += sizeof(int); 

m = *((int *)postings e); @ 

postings e += sizeof(int); 

calc golomb params(m, &b, &t); 

for (i = 6; i < docs count; i++) { 他 
int gap = golomb decoding(m, b, t, &postings e, pend, &bit); © 
if ((pl = malloc(sizeof(postings list)))) { 


pl->document_id = pre document id + gap + 1; @) 
utarray_new(pl->positions, &ut int icd); 
LL_APPEND(*postings, pl1); 
(*postings_ len)++; 
pre_document id = pl->document id; 

} else { 
print error("memory allocation failed."); 


if (bit != 6x86) { postings e++; bit = 6x86; } @ 
for (i = 60, pl = *postings; i «< docs count; i++，pl = pl->next) { 
int j, mp, bp, tp, position = -1; 


pl->positions count = *((int *)postings e); 

postings e += sizeof(int); 

mp = *((int *)postings e); 

postings e += sizeof(int); 

calc golomb params(mp, &bp, &tp); 

for (j = 6j j < pl->positions count; j++) { 
int gap = golomb decoding(mp, bp, tp, &postings e, pend, &bit); 
position += gap + 1; 
utarray_push_ back(pl->positions, &position); 


if (bit != 0x86) { postings et++; bit = 6x86; } 





首先 ， 我 们 要 对 文档 编号 的 整数 友 列 进行 解码 。 


为 此 ， 需 要 先 初 始 化 表示 当前 正 指向 二 进 制 序 列 中 哪个 比特 的 变量 
bit 〈 侯 ) 。0x80 表示 当前 正 指向 第 0 个 比特 。 有 关 该 变量 的 细节 ， 将 
在 稍 后 讲解 函数 golomb_decoding() 时 再 一 同 讲解 。 


接 下 来 ， 在 CD 和 @ 的 步骤 中 ， 分 别 读 取 了 文档 数 〈 变 量 docs_count) 和 
用 Golomb 编码 进行 压缩 时 所 要 用 到 的 参数 m。 


然后 对 于 每 个 文档 (@@) ， 通 过 调用 函数 golomb_decoding()， 对 作为 文 
档 编号 差 值 的 整数 (&) 进行 了 解码 。 随 后 ， 叉 根据 该 差 值 ， 还 原 了 原 
始 的 文档 编号 〈@@) 。 








最 后 ， 在 对 出 现 位 置 进行 解码 时 (之 后 )， 采 用 了 与 之 前 (从 到 
@) 对 文档 编号 进行 解码 时 同样 的 处 理 过 程 。 


1 范 数 golomb_decoding() 


下 面 ， 我 们 再 来 看 一 下 函数 golomb_decoding()。 其 中 的 解码 处 理 与 在 消 
数 golomb_encoding() 中 进行 的 编码 处 理 是 相互 对 应 的 。 








/** 
* 用 Golomb 编 码 解码 一 个 数值 








* @param[in] m Golomb 编 码 中 的 参数 m 

* @param[in] b ot si ceil(log2(m)) 
* @Oparam[in] 七 pow2(b) - 
* @param[in] buf 作为 解码 对 象 的 数据 
* @param[in] buf_end 作为 解码 对 象 的 数据 的 末尾 位 置 
* @param[in] bit 作为 解码 对 象 的 数据 中 的 起 始 比 特 
* @return 解码 后 的 值 

*/ 

static inline int 
golomb decoding(int m, int b, int 七 ， 

const char **buf, const char *buf end, unsigned char *bit) 



































{ 


int n = 0@; 


/* decode (n / m) with unary code */ 
while (read bit(buf, buf end, bit) == 1) { 人 
n += m; 人 


} 
/* decode (n % m) */ 
if (m > 1) { @ 
int i, r = 0; 
for (i = 606; i<b-1; it++){@ 
int z = read bit(buf, buf end, bit); @2 
if (z == -1) { print error("invalid golomb code"); break; } 


r= (rxx1)|z;®@ 


} 
if (r >= t) { 动 
int z = read bit(buf, buf end, bit); 的 
if (z == -1) { 
print_ error("invalid golomb code"); 


} else { 
r= (rx<1)|z;@ 
r -= t; 人 

} 


} 


n += r; @8 


return n; 


} 





正如 前 文 所 述 ， 变 量 bit 的 作用 是 以 二 进 制 数 的 形式 表示 要 从 变量 buf 
的 哪个 位 置 开始 读 取 。 例 如 ， 妆 bit 的 值 为 0x80 时 ， 由 于 将 其 转换 成 二 
进 制 后 左 数 第 1 个 位 置 上 的 比特 是 1， 所 以 就 表示 要 从 buf 的 第 1 个 比 
特 开始 读 取 。 以 此 类 推 ， 当 bit 的 值 为 0x40 时 ， 由 于 将 其 转换 成 二 进 制 
后 左 数 第 2 个 位 置 上 的 比特 是 1， 所 以 表示 要 从 buf 的 第 2 个 比特 开始 





读 取 。 之 所 以 要 用 二 进 制 数 表 示 变 量 bit， 是 因为 只 需要 对 bit 和 buf 进 
行 逻 辑 与 运算 ， 就 可 以 从 buf 与 bit 中 值 为 1 的 比特 相对 应 的 位 置 上 读 
取出 1 个 比特 值 。 

下 表 列 出 了 bit 的 各 种 取 值 分 别 能 够 读 取 buf 中 哪个 位 置 上 的 比特 值 。 
bit: 0x80 二 进 制 表示 : 10000000 指向 的 比特 :buf 中 的 第 1 个 比特 
bit: 0x40 二 进 制 表示 : 01000000 指向 的 比特 : buf 中 的 第 2 个 比特 
bit: 0x20 二 进 制 表示 : 00100000 指向 的 比特 : buf 中 的 第 3 个 比特 
bit: 0x10 二 进 制 表示 : 00010000 指向 的 比特 : buf 中 的 第 4 个 比特 
bit: 0x08 二 进 制 表示 : 00001000 指向 的 比特 : buf 中 的 第 5 个 比特 
bit: 0x04 二 进 制 表示 : 00000100 指向 的 比特 : buf 中 的 第 6 个 比特 
bit: 0x02 二 进 制 表示 : 00000010 指向 的 比特 : buf 中 的 第 7 个 比特 
bit: 0x01 二 进 制 表示 : 00000001 指向 的 比特 : buf 中 的 第 8 个 比特 
首先 ， 我 们 通过 unary 编码 对 二 进 制 序列 进行 了 解码 〈@@、@) ， 二 进 
制 序列 指 的 是 在 函数 golomb_encoding0 中 进行 鸭 和 @ 困 两 处 编码 后 得 到 
的 序列 。 正 如 前 文 所 述 ， 函 数 read_bit()(@) 会 利用 buf 和 bit， 从 buf 
中 读 取 出 1 个 比特 。 根 据 Golomb 编码 的 规则 ， 只 要 当前 bit 所 指向 的 


buf 中 的 比特 值 为 1， 就 要 将 m 的 值 宗 加 到 n 上 ， 最 后 我 们 残 通过 这 种 
方法 ， 将 “解码 后 的 数值 xm 的 结果 赋值 给 了 变量 mn (9) 。 





GD 之 后 的 内 容 ， 是 对 二 进 制 序列 进行 的 解码 处 理 ， 这 里 的 二 进 制 序列 指 
的 是 在 函数 golomb_encoding() 中 进行 圆 之 后 的 编码 所 形成 的 序列 。 接 
下 来 在 从 好 到 G3 的 步骤 中 ， 我 们 将 三 进 制 序列 中 前 b -1 个 比特 的 数据 
解码 后 赋值 给 了 变量 r。 具 体 做 法 是 反复 执行 b- 1 次 名 以 后 的 操作 : 先 
从 二 进 制 序列 中 读 取 工 个 比特 〈62) ， 然 后 将 r 左 移 1 个 比特 ， 用 刚刚 
读 取 出 的 1 个 比特 值 作为 左 移 后 空 出 的 最 低 比特 上 的 值 (G@3) 。 


当 r 不 小 于 t 时 (GD) ， 我 们 还 要 继续 向 后 读 取 1 个 比特 (GD) ， 然 后 

只 要 再 重复 执行 一 遍 加 的 操作 (69) ， 并 减 去 t 的 值 (7) ， 即 可 解 出 

r 的 值 。 而 当 r 小 于 t 时 ， 由 于 此 时 r 中 存放 的 就 是 解码 后 的 值 ， 所 以 在 
累加 到 变量 mn 之 前 就 不 需要 再 进行 什么 处 理 了 。 


最 后 只 需要 再 将 n 和 7r 加 到 一 起 ， 即 可 解 出 原来 的 数值 了 (G8)。 
至 此 为 止 ， 我 们 就 了 解 了 有 关 倒 排列 表 的 编码 和 解码 处 理 了 。 如 果 感 到 


比特 操作 不 是 很 好 理解 ， 那 么 在 准确 地 理解 了 Golomb 编码 之 后 ， 不 妨 
试 独 一 步 步 地 杭 理 各 个 操作 。 

















第 6 章 挑战 wiser 的 优化 及 参数 的 


调整 


至 此 为 止 ， 我 们 已 经 从 源 代码 级 别 介绍 了 全 文 搜索 系统 wiser 的 结构 ， 
诸位 也 体验 到 了 搜索 引擎 的 开发 过 程 。wiser 是 一 个 简单 的 搜索 引擎 ， 
旧 在 帮助 诸位 理解 搜索 引擎 的 核心 部 分 。 因 此 ， 要 想 使 之 成 为 一 个 实用 
的 搜索 引擎 ， 还 需要 大 量 的 优化 工作 。 另 外 ， 虽 然 wiser 带 有 多 个 参 
数 ， 但 是 我 们 还 没有 分 析 调 整 这 些 参 数 所 能 引起 的 此 消 彼 长 的 变化 。 于 
是 ， 我 们 想 在 本 章 以 练习 的 形式 来 优化 wiser， 确 认 调 整 wiser 的 参数 后 
所 能 引起 的 各 种 此 消 彼 长 的 变化 ， 以 此 来 帮助 诸位 理解 构建 实用 搜索 引 
擎 的 要 点 ， 从 而 加 深 诸位 对 搜索 引擎 结构 及 特性 的 认识 。 


对 于 练习 的 问题 ， 我 们 会 结合 实际 予以 举例 解答 。 其 中 有 从 正面 解答 问 
题 的 例子 ， 也 有 回避 了 细 权 末节 的 例子 。 不 过 ， 在 翻阅 答案 前 ， 请 诸位 
一 定 要 目 己 努力 动手 优化 一 下 源 代 码 。 








6-1 提高 检索 处 理 的 效率 


在 第 4 章 的 开始 部 分 ， 我 们 讲解 过 wiser 现 有 的 检索 处 理 方法 还 不 够 高 
效 。 既 然 如 此 ， 下 面 就 让 我 们 从 这 里 开始 优化 吧 。 


优化 检索 处 理 


在 wiser 现 有 的 检索 处 理 过 程 中 ， 我 们 采用 了 与 构建 倒 排 索引 时 同样 的 
分 割 方法 ， 即 每 次 向 后 错开 1 个 字符 ， 将 得 询 分 割 成 了 bi-gram 的 词 元 
序列 ， 并 检查 了 分 割 出 来 的 词 元 在 文档 中 是 人 否 是 按 顺 序 排 列 的 。 在 这 个 
过 程 中 有 些 地 方 是 可 以 优化 的 。 


下 面 我 们 就 举例 说 明 。 假 设 我 们 用 bi-gram 的 词 元 为 文档 “自制 搜索 引 
擎 "构建 出 了 如 下 的 倒 排 索 引 。 倒 排 索 引 中 所 有 的 文档 编号 均 为 0。 


。 目 制 :0;0 
。 制 搜 :0;1 
。 搜索 :0;2 
。 索引 :0;3 
。 引擎 :0;4 


当 通 过 得 询 字符 串 “ 目 制 搜 索引 擎 ”检索 上 述 倒 排 索 引 时 ， 只 要 将 其 分 割 
成 “自制 “搜索 “引擎”3 个 词 元 ， 并 观察 到 在 文档 中 后 一 个 词 元 的 出 现 
位 置 ( 偏 移 量 ) 总 是 与 前 一 个 词 元 的 出 现 位置 相 距 2 个 字符 ， 束 可 以 灯 
定 短语 “ 目 制 搜索 引擎 ”出 现在 了 文档 中 。 也 就 是 说 ， 对 于 由 每 次 问 后 错 
开 1 个 字符 而 形成 的 bi-gram 的 词 元 构建 的 倒 排 索引 而 言 ， 只 需要 将 得 
询 分 割 为 行 干 个 无 重复 部 分 的 词 元 序列 即 可 。 


通过 这 样 的 分 割 ， 束 可 以 减少 需要 参与 检索 的 词 元 的 数量 。 这 也 残 意味 
独 这 样 的 分 割 有 助 于 减少 关联 到 词 元 上 的 倒 排列 表 的 获取 次 数 ， 从 而 降 
低 对 多 个 倒 排 列表 中 的 出 现 位 置信 息 进 行 相 邻 判定 时 的 比较 处 理 的 次 
数 。 在 获取 倒 排 列表 时 通常 都 会 伴随 厦大 量 的 IO 操作 ， 而 进行 比较 处 
理 时 叉 通 常会 消耗 大 量 的 CPU 资源 ， 因 此 只 要 减少 了 词 元 的 数量 ， 就 




















能 大 幅度 地 提升 检索 处 理 的 效率 。 
将 查询 分 割 为 无 重复 部 分 的 词 元 序列 


下 面 ， 我 们 来 看 一 下 如 何 将 查询 分 割 为 无 重复 部 分 的 词 元 序列 。 在 这 
里 ， 我 们 需要 对 函数 text_to_postings_lists() 进行 改造 ， 该 函数 会 被 从 字 
符 串 中 提取 词 元 的 函数 split_query_to_tokens() 所 调用 。 


使 用 N-gram 进行 分 割 时 ， 改 造 后 的 常规 做 法 是 从 查询 字符 串 的 起 始 位 

置 开始 不 断 地 取出 一 组 组 无 重复 部 分 的 n 个 字符 。 但 是 ， 当 查询 字符 串 
的 长 度 不 能 被 n 整除 时 ， 束 会 在 最 后 留 下 一 个 长 上 度 小 于 n 的 词 元 。 遇 到 
这 种 特殊 情况 时 ， 我 们 要 将 末尾 的 n 个 字符 作为 1 个 词 元 。 以 “查询 字 

符 串 ”为 例 ， 我 们 先 分 别 用 bi-gram 和 tri-gram 对 其 进行 分 割 ， 分 割 结 果 
如 下 所 示 。 


。 使 用 bi-gram 的 分 割 结果 : “但 询 ” 字 符 ” 符 串 ” 

。 使 用 tri-gram 的 分 割 结果 : “查询 字 ” 字 符 串 ” 
像 这 样 ， 当 俘 询 字符 串 的 长 度 不 能 个 n 整除 时 ， 我 们 可 以 通过 如 下 的 集 
略 ， 生 成 含有 部 分 重复 字符 的 词 元 。 男 外 ， 我 们 将 变量 position 用 作 游 
标 ， 指 向 查询 中 正在 处 理 的 字符 。 


。 当 position 可 以 被 n 整除 并 且 候 选 词 元 的 长 度 不 小 于 n 时 -将 该 
候选 词 元 作为 正式 词 元 


。 当 position 可 以 被 n 整除 并 且 候 选 词 元 的 长 度 小 于 n 时 -将 该 候 
选 词 元 的 前 一 个 候选 词 元 作为 词 元 


由 于 函数 ngram_next( 是 通过 每 次 问 后 错开 1 个 字符 来 获取 词 元 的 ， 所 
以 可 以 保证 位 于 最 后 一 个 长 度 小 于 的 词 元 之 前 的 候选 词 元 其 长 度 一 定 
是 n。 因 此 ， 我 们 就 需要 定义 3 个 新 的 变量 last_t_len、last_t 以 及 
last_position， 用 于 存储 前 一 个 候选 词 元 的 信息 。 























int 


text to postings lists(wiser env *env, 
const int document id, const UTF32Char *text, 
const unsigned int text len, 
const int n, inverted index hash **postings) 


/* FIXME: now same document update is broken. */ 

int t len, position = ©; 

const UTF32Char *t = text, *text end = text + text len; 
int last t len = 606, last position = 0; 

const UTF32Char *]last 七 = NULL; 


inverted index_hash *buffer postings = NULL; 
for (; (t_len = ngram next(t, text end, n, &t)); t++, position++) { 


int filtered t len = 68, filtered position; 
const UTF32Char *filtered 七 = NULL; 





/* 在 检索 时 ， 基 本 上 是 当 position 可 以 被 n 整 除 时 才 取 出 词 元 */ 
if (document id || ((position % n == 6) && t len >= n)) { 
filtered t len = t len; 
filtered 七 = 七 ; 
filtered position = position; 
/* 但 是 ， 要 保证 最 后 一 个 词 元 含有 n 个 字符 */ 
} else if (t len < n) { 
if (last t len && last t) { 
filtered t len = last t len; 
filtered t = last t; 
filtered position = last position; 
} else { 
break; 



































} 
} 


if (filtered t len && filtered t) { 
int retval, t 8 size; 
char t 8[n * MAX UTF8_ SIZE]; 


utf32toutf8(filtered t, filtered t len, t 8, &t 8 size); 
retval = token to postings list(env, document id, t 8, t 8 size, 
filtered position, &buffer postings); 


if (retval) { return retval; } 


last t len = ©; 
last t = NULL; 


} else { 
last t len = t len; 
last t = 七 ; 
last position = position; 
} 


if (*postings) { 

merge_inverted index(*postings, buffer postings); 
} else { 

*postings = buffer postings; 


} 


return 0; 





分 别 用 优化 前 和 优化 后 的 wiser 检索 同一 个 查询 后 可 以 及 现 ， 检 索 结 








的 数量 并 未 发 生变 化 ， 而 检索 处 理 的 速度 则 有 所 提升 。 但 是 由 于 索引 中 
收录 的 文档 非常 多 ， 而 且 得 询 的 长 度 又 没有 达到 足够 的 长 度 ， 所 以 也 许 
并 不 能 切实 感到 检索 处 理 的 速度 提升 了 。 


另外 ， 分 别 用 优化 前 和 优化 后 的 wiser 检索 同一 个 查询 后 ， 还 会 发 生得 
到 了 不 同 的 检索 结果 的 情况 。 例 如 ， 用 优化 后 的 wiser 去 检索 查询 字符 
串 * 漫 画作 品 ? 所 得 到 的 结果 ， 就 比 用 优化 前 的 wiser 所 得 到 的 结果 多 1。 
这 意味 着 在 上 述 示例 代码 中 有 Bug 吗 ? 


! 优 化 后 的 wiser 会 将 “漫画 作品 "分 着 为 词 元 “漫画 "和 “作品 *， 而 优化 前 的 wiser 会 将 其 分 和 
成 “漫画 “画作 "和 “作品 "。 一 一 译 者 注 

















一 人 












































其 实 不 是 这 样 的 。 之 所 以 检索 结果 的 数量 不 一 致 ， 是 因为 在 Wikipedia 
的 词 条 中 有 时 会 出 现 用 形 如 “[[ 漫画 ] 作品 ”的 Wiki 标记 书写 的 内 容 。 
而 在 构建 索引 时 ，wiser 的 词 元 分 割 嚣 (Tokenizer) 会 把 这 样 的 标记 视 
作 空 格 ， 即 等 价 于 将 内 容 为 “漫画 作品 ”的 字符 串 分 割 为 词 元 序列 “。 所 
以 用 优化 前 的 wiser 检索 “漫画 作品 ”时 ， 只 要 文档 中 没有 出 现 * 画 作 ” 这 
个 词 元 ， 该 文档 就 会 从 检索 中 遗漏 。 


2 分割 的 结果 为 “漫画 “画作 品 “ 品 "。 一 一 译 者 注 











6-2 ”禁用 短语 检索 


在 wiser 中 ， 我 们 会 将 一 个 个 二 元 组 存储 到 倒 排 索 引 的 倒 排列 表 里 ， 二 
元 组 中 包括 含有 菏 个 词 元 的 文档 编号 和 该 词 元 出 现 的 位 置 。 这 样 的 倒 排 
列表 称 为 单词 级 别 的 倒 排列 表 。 而 且 我 们 还 讲解 过 ， 通 过 单词 级 别 的 倒 
排列 表 可 以 准确 地 找 出 包含 在 查询 中 的 短语 。 


那么 ， 如 果 不 进 行 短 语 检索 ， 会 产生 多 少 检索 噪声 昵 ? 在 wiser 中 ， 启 
人 
仿 索 噪声 吧 。 


分 析 对 2 字符 的 字符 串 进行 检索 时 的 行为 
首先 ， 让 我 们 来 检索 一 个 2 字符 的 字符 串 ， 例 如 “漫画 ”"。 在 检索 时 ， 我 


们 使 用 的 是 为 1000 个 词 条 建立 索引 后 形成 的 数据 库 。 检 过 分 两 次 进 
行 ， 第 一 次 不 带 参 数 -s， 第 二 次 带 上 该 参数 。 








> ./wiser -q ' 漫 男 ' wikipedia 1666.db 


Total 12 documents are found! 


> ./wiser -q ' 漫 男 ' -s wikipedia 1666.db 


Total 12 documents are found! 





可 以 发 现 两 次 的 检索 结果 是 一 致 的 。 所 谓 bi-gram， 就 是 指 长 度 为 2 个 
字符 的 词 元 ， 因 此 对 bi-gram 进行 短语 检索 的 意义 不 大 。 


分 析 对 3 字符 的 字符 串 进行 检索 时 的 行为 
下 面 ， 我 们 再 来 检索 一 个 3 字符 的 字符 串 。 例 如 “第 一 个 ”。 





> ./wiser -q ' 第 一 个 ' wikipedia 1666.db 








document id: 775 title: 16 月 score: 3.244442 


document_id: 511 title: 明 鲜 (称谓 ) score: 3.174791 
document id: 553 title: Wikipedia: 互 助 客栈 档案 室 score: 3.174791 
document id: 664 title: A score: 3.174791 
document id: 768 title: 6 月 25 日 score: 3.174791 
document id: 395 title: 武术 score: 2.139744 
document id: 765 title: 7 月 score: 2.139744 
document id: 766 title: 5 月 score: 2.139744 
document id: 866 title: 雷 score: 2.139744 
document_id: 914 title: 星期 二 score: 2.139744 
Total 154 documents are found! 

[time] 2615/16/14 65:28:67.0606667 (diff 1.073676) 

















接 下 来 ， 茶 用 短语 检索 后 再 检索 一 次 “第 一 个 ”。 


> ./wiser -q ' 第 ' -s wikipedia 1666.db 





document_id: title: 约翰 . 沃 尔 夫 冈 . 冯 .歌德 score: 16.982968 
document id: 266 title: 唐 朝 score: 16.613257 

document id: 836 title: 围棋 score: 16.613257 

document id: 446 title: 联合 国 score: 15.943667 





document id: 866 title: 雷 score: 2.139744 
document_id: 883 title: 怀俄明 州 score: 2.139744 
document_id: 914 title: 星期 二 score: 2.139744 
document id: 941 title: F# score: 2.139744 

Total 349 documents are found! 

[time] 2615/16/14 85:36:13.666666 (diff 1.036619) 











可 以 看 出 ， 检 索 结 条 在 数量 上 有 较 大 的 兰 距 。 茶 用 短语 检索 前 能 找到 

154 条 结果 ， 而 禁用 短语 检索 后 苋 能 找到 349 条 结果 。 究 其 原因 可 以 发 
现 ， 无 论 “ 第 一 ”还 是 “一 个 ”都 古 会 在 大 量 文档 中 出 现 的 词 元 。 在 诸 

如 “世界 上 第 一 部 《 架 、 本 ..…....)..….….. 0 

期 .…...)“” 等 句子 中 ， 就 经 常会 遇 到 虽然 出 现 了 “第 一 * 和 “一 个 ”， 但 是 

却 没有 出 现 “ 第 一 个 ”的 情况 。 除 此 之 外 ， 请 再 试 着 比较 一 下 在 禁用 短语 
检索 前 后 ， 用 “东西 南北 “中国 大 学 ?等 短语 检索 所 得 到 的 结 末 。 可 以 发 
现 ， 检 索 络 果 在 数量 上 依然 存在 着 较 大 的 兰 距 。 因 此 ， 虽 然 茶 用 短语 检 
索 可 以 省 略 奉 找 短语 的 过 程 ， 从 而 提高 检索 的 速度 ， 但 是 这 样 做 会 导致 
那些 原本 与 查询 并 不 相关 的 文档 最 终 也 出 现在 了 检索 结果 中 。 











6-3 ”改变 检索 结果 的 输出 顺序 

作为 检索 结 末 排序 核心 的 指标 

检索 系统 有 时 会 产生 大 量 的 检索 结果 。 此 时 即使 是 将 检索 结果 原封 不 动 
地 返回 ， 用 户 也 无 法 查阅 完 所 有 内 容 。 因 此 更 好 的 做 法 是 根据 某 种 指标 
进行 评分 ， 然 后 只 将 得 分 较 高 的 文档 作为 检索 结果 呈现 给 用 户 。 

下 面 我 们 就 来 介绍 几 个 用 于 对 检索 结果 排序 的 指标 〈 属 性 ) 。 


| TF-IDF 














TF 是 Term Frequency〔 词 频 ) 的 缩写 ， 用 于 描述 特定 词 元 在 某 个 特定 
文档 中 的 出 现 次 数 。IDF 是 Inverse Document Frequency〔 道 文档 频率 ) 
的 缩写 ， 指 在 所 有 的 文档 中 ， 出 现 过 特定 词 元 的 文档 数 的 倒数 。TF-IDF 
值 就 是 上 述 TF 和 IDF 的 乘积 。 


假设 茶 个 词 元 在 东 个 文档 中 的 出 现 次 数 为 了 ， 总 共有 A 个 文档 ， 并 且 东 
个 词 元 至 少 出 现 过 1 次 的 文档 数 为 D， 那 么 TF-IDF 值 的 计算 公式 如 下 
所 示 : 


以 三 再 
idf = log 二 
tf 一 idf = tf x idf 


由 公式 可 以 看 出 ， 在 同一 个 文档 中 ， 作 为 检索 对 象 的 词 元 出 现 的 次 数 越 
多 ， 其 TF 值 就 越 高 。 而 如 果 除 了 少数 几 个 文档 以 外 ， 某 个 词 元 在 大 多 
数 文 档 中 都 没有 出 现 ， 那 么 该 词 元 的 IDF 值 就 会 增 大 。 也 就 是 说 ， 虽 然 
有 的 词 元 没有 在 大 多 数 文档 中 频繁 出 现 ， 但 是 频繁 出 现在 少数 文档 中 同 
样 会 使 该 词 元 的 TF-IDF 值 增 大 。 因 此 ， 一 般 会 把 TF-IDEF 作为 衡量 “ 词 
元 在 文档 集合 中 是 否 特殊 ”的 一 个 指标 。 


在 TF-IDF 的 计算 方法 之 中 有 各 种 各 样 的 变 体 。 例 如 ， 当 文章 很 长 时 ， 
所 有 词 元 的 TF 都 会 变 得 过 大 ， 因 此 在 有 的 计算 方法 中 ， 就 需要 通过 除 
以 文章 中 出 现 次 数 最 多 的 词 元 的 TF 来 平滑 数据 。 另 外 ， 由 于 TF-IDF 
值 与 TF 值 呈 线性 关系 ， 即 TF 值 增 大 1 倍 ， 作 为 得 分 的 TF-IDF 值 也 会 














增 大 一 倍 ， 所 以 还 有 的 计算 方法 会 对 TF 取 对 数 。 


二 | LE 
Wg (T=0) 


4 
1df = log— 
Sy 


tf — 1df = tf xidf 
1 文档 的 最 后 更 新 日 期 


对 于 某 些 作为 检索 对 象 的 文档 集合 ， 搜 索引 擎 会 根据 文档 的 最 后 更 新 日 
期 ， 而 不 是 查询 与 文档 的 相关 度 ， 对 检索 结果 进行 排序 。 


例如 在 Twitter 的 推 文 检索 功能 中 ， 就 是 按照 发 布 日 期 的 降序 来 呈现 检 
索 到 的 推 文 的 。 之 所 以 这 样 做 ， 是 因为 用 户 想 浏览 的 是 “最 近 大 家 都 在 
热 议 什么 话题 ?>。 面 对 “用 户 想 了 解 的 是 特定 的 新 闻 以 及 大 家 对 这 条 新 闻 
的 评论 ”这 种 需求 ， 将 发 布 日 期 最 新 的 新 闻 放 到 最 上 面 再 自然 不 过 了 。 
而 且 ， 由 于 Twitter 的 用 户 界 面 在 设计 之 初 就 是 按照 时 间 顺 序列 出 推 文 
的 ， 所 以 检索 结果 也 沿用 这 种 风格 显示 的 话 ， 浏 览 起 来 会 更 加 方便 。 


1 PageRank 


在 对 检索 结果 排序 时 ，Google 会 计算 一 种 名 为 PageRank 的 独 有 指标 ， 
并 将 其 结果 作为 决定 Web 检索 结果 呈现 顺序 的 要 素 之 一 。 

PageRank 的 计算 ， 是 基于 “从 受 欢 迎 的 网 页 中 精 挑 细 选 出 的 链接 所 指 癌 
的 网 页 应 该 也 很 受 欢 迎 吧 ”这 种 假设 。 有 具体 来 说 ， 是 基于 以 下 3 个 推 
测 。 


。 0 的 、 受 欢 
迎 也 











。 被 受 欢迎 网 页 上 的 链接 指向 的 网 页 从 某 种 程度 上 来 说 也 是 优质 的 
。 人 的 数量 与 搜索 引擎 对 链接 目标 网 页 的 推荐 程度 呈 反 





由 于 PageRank 的 计算 只 与 网 页 间 的 链接 结构 有 关 ， 所 以 计算 时 会 完全 
忽略 网 页 的 内 容 。 在 这 一 点 上 ，PageRank 与 TF-IDF 等 计算 时 只 参考 文 
档 内 容 的 指标 完全 不 同 。 


现 有 的 wiser 在 输出 前 会 根据 TF-IDF 值 的 大 小 对 检索 结果 进行 降序 排 
列 ， 尽 管 如 此 ， 能 够 在 输出 前 使 用 除 此 之 外 的 排序 方式 也 是 一 个 不 错 的 
选择 。 为 此 ， 作 为 练习 ， 下 面 束 让 我 们 改造 一 下 wiser， 使 其 能 够 在 输 
出 前 按照 文档 的 大 小 对 检索 结果 进行 降序 排列 。 


按照 文档 大 小 降序 排列 的 检索 结 


首先 ， 我 们 需要 创建 一 个 能 够 获取 文档 大 小 的 函数 。 往 运 的 是 ，SQLite 
已 经 提供 了 函数 LENGTHO， 用 于 获取 列 〈Column) 中 存放 的 字符 串 的 
长 度 ， 因 此 我 们 可 以 直接 利用 这 个 函数 。 


为 了 添加 新 的 数据 库 得 询 ， 首 先 需要 预 留 一 块 空 间 以 存储 相应 的 准备 语 
句 〈 了 Prepared Statements) 。 为 此 我 们 向 wiser.h 的 结构 体 
struct_wiser_env 中 添加 了 1 个 元 素 。 








typedef struct wiser env { 


sqlite3 stmt *get document body size st; 


} wiser _ env; 





然后 在 database.c 中 的 函数 init_database() 中 ， 创 建 一 个 准备 语句 。 准 备 
语句 由 用 于 获取 文档 大 小 的 查询 语句 构成 。 











init database(wiser env *env, const char *db path) 


{ 


sqlite3 prepare(env->db, 
"SELECT LENGTH(body) FROM documents WHERE id = ?;", 
-1, &env->get document body size st, NULL); 
} 


fin database(wiser env *env) 


sqlite3 finalize(env->get document body size st); 





接 下 来 ， 在 database.c 中 创建 一 个 用 于 获取 文档 大 小 的 函数 
db_get_document_ size0。 该 函数 的 逻辑 非常 简单 ， 束 是 以 document id 
为 键 获取 文档 的 长 度 。 


int 
db_get document size(const wiser env *env, int document id, 
const unsigned int *document size) 


{ 


int rc; 


sqlite3 reset(env->get document body size st); 
sqlite3 bind int(env->get document body size st, 1, document id); 


rc = sqlite3 step(env->get document body size st); 
if (rc == SQLITE ROW) { 
*document size = (int)sqlite3 column int(env->get document body size st 


} 


return 0; 





实现 了 函数 db_get_document_size() 之 后 ， 我 们 还 要 在 文件 database.h 中 
添加 该 函数 的 原型 声明 。 


int db _ get document size(const wiser env *env, int document _ id, 


const unsigned int *document size); 





进行 到 这 一 步 ， 只 要 调用 函数 db_get_document_size() 即 可 获取 文档 的 
大 Ja 


下 面 ， 我 们 还 要 将 文档 的 大 小 存储 到 每 个 文档 中 ， 以 使 排序 函数 可 以 利 


用 此 数据 对 检索 结果 排序 。 为 此 ， 我 们 首先 在 search.c 的 结构 体 
search_results 中 添加 了 一 个 用 于 存储 文档 大 小 的 元 素 body_size。 


typedef struct { 





unsigned int body_size; /* 文档 大 小 */ 





然后 通过 调用 函数 add_search_result()， 从 数据 库 中 取出 了 成 为 检索 结 
的 各 文档 的 大 小 。 为 了 访问 数据 库 ， 我 们 还 以 参数 的 形式 将 wiser_env 
类 型 的 变量 env 传递 给 了 该 函数 。 


/te* 
* 将 文档 添加 到 检索 结果 中 。 
* @param[in] env 存储 着 应 用 程序 运行 环境 的 结构 体 
* @param[in] results 指向 检索 结果 的 指针 
* @param[in] document_id 要 添加 的 文档 编号 
* @param[in] score 得 分 
*/ 
static void 
add search result(wiser env *env, search results **resuyults, const int docum 
const double score) 
{ 


search results *r; 
if (*results) { 

HASH_FIND INT(*results, &document id, r); 
} else { 

r = NULL; 






































} 
if (!Ir) { 
if ((r = malloc(sizeof(search results)))) { 
P->document id = document id; 
r->score = 0; 
db_get document size(env, document id, &r->body size); 
HASH _ ADD INT(*results, document id, r); 
} 


} 
if (r) { 
r->score += score; 
} 
} 





由 于 函数 add_search_result( 是 由 函数 search_docs() 调用 的 ， 所 以 要 在 
函数 search_docs() 内 部 将 变量 env 传递 给 函数 add_search_result()。 


void 
search docs(wiser env *env, search results **results, 
query_token_ hash *tokens) 


{ 


if (phrase count) { 
double score = calc tf idf(tokens, cursors, Nn tokens, 
env->indexed_ count); 
add search result(env, results, doc id, score); 


} 





至 此 ， 我 们 终于 能 够 从 检索 结果 的 结构 体 中 取出 文档 大 小 了 。 
接 下 来 ， 我 们 在 search.c 中 创建 根据 body_size 进行 比较 的 比较 函数 


search results_body_size_desc_sort()。 


At 

* 比较 两 条 检索 结果 的 文档 大 小 
* @param[in] a 一 条 检索 结果 
* @param[in] b 另 一 条 检索 结果 
* @return 文档 的 大 小 关系 

*/ 
static int 
search results body size desc sort(search results *a, search results *b) 
{ 

return (b->body size > a->body size) ?1.: 

(b->body size < a->body size) ? -1 : 09; 











创建 好 以 后 ， 只 需要 在 函数 search_docs() 中 用 该 函数 取代 先前 调用 的 函 


数 search_results_score_desc_sort() 即 可 。 





void 
search docs(wiser env *env, search results **results, 
query_token_ hash *tokens) 


{ 


free inverted index(tokens); 
HASH_SORT(*results, search results body size desc sort); 
} 


[L 


人 至此， 我 们 终于 完成 了 根据 文档 大 小 对 检索 结果 排序 的 功能 。 该 功能 看 
起 来 好 像 很 简单 ， 但 没 想到 实现 起 来 竟然 这 么 厅 烦 。 


由 于 Wikipedia 的 XML 中 也 包含 了 最 后 更 新 日 期 等 信息 ， 所 以 通过 参 
考 上 述 的 修改 过 程 进 行 改造 ， 就 应 该 能 使 wiser 可 以 根据 最 后 更 新 日 期 
对 检索 结果 排序 了 。 下 面 就 请 诸位 将 此 作为 更 进一步 的 需求 ， 试 着 挑战 
=* 下 


专 本 
排名 欺诈 


Web 检索 系统 的 诞生 使 文档 的 排名 具有 了 重要 的 经 济 价值 ， 由 此 就 
导致 了 经 第 会 发 生 通过 做 手脚 来 提升 文档 排名 的 行为 。 


假设 有 一 个 采用 了 TF-IDF 来 计算 网 页 重要 度 的 搜索 引擎 。 那 么 ， 

只 要 使 网 页 中 茶 个 单词 的 出 现 次 数 翻 倍 ， 通 过 该 单词 进行 检索 时 ， 
相应 网 页 的 重要 度 就 会 随 之 翻 倍 。 也 就 是 说 ， 只 需要 增加 网 页 中 的 
单词 驶 可 以 轻松 地 操纵 网 页 的 重要 度 了 。 


为 了 防止 有 人 通过 上 述 简单 易 行 的 手段 来 操纵 重要 上 度 ，Google 采用 
了 不 依赖 网 页 的 内 容 ， 而 是 使 用 网 页 的 链接 结构 来 计算 重要 度 的 
PageRank。 


但 是 ， 重 要 度 归 根 到 底 只 是 一 个 根据 录 种 标准 计算 出 来 的 数值 。 所 
以 经 常会 出 现 一 些 网 页 专家 ， 通 过 推测 搜索 引擎 使 用 的 计算 标准 来 
牟取 超过 文档 本 吴 拥 有 价值 的 排名 。 从 本 质 上 来 讲 ， 这 种 相互 较量 
很 难 避 免 ， 而 Web 检索 系统 的 运营 者 也 经 常会 对 此 感到 束 手 无 全 。 




















6-4 让 1 个 字符 的 查询 也 能 检索 出 结果 

在 wiser 中 ， 我 们 是 用 bi-gram 来 分 割 词 元 的 。 这 就 意味 着 不 足 2 个 字 
符 的 字符 串 是 检索 不 出 结果 的 。 那 么 应 该 怎样 调整 才能 使 1 个 字符 也 能 
检索 出 结果 呢 ? 


由 于 此 前 我 们 已 经 将 词 元 全 部 存储 到 了 SQLite 的 tokens 表 中 ， 所 以 现 
在 只 要 像 下 面 这 样 束 能 检索 出 以 字符 X 开头 的 词 元 了 。 


WHERE token like 'X%' 


只 要 先 借助 该 方法 将 所 有 以 东 一 个 字符 开头 的 词 元 都 取出 来 ， 然 后 再 将 
各 个 词 元 的 检索 结果 合并 ， 就 可 以 实现 1 个 字符 的 检索 了 3。 


3 也 有 与 使 用 了 uni-gram 的 倒 排 索引 相 结 合 的 实现 方法 。 
获取 以 特定 字符 开头 的 词 元 的 列表 


与 按照 文档 大 小 对 检索 结果 排序 时 相同 ， 我 们 首先 还 是 要 做 好 执行 新 碍 
询 的 准备 工作 。 


























typedef struct wiser env { 


sqlite3 stmt *token partial match st; 
} wiser_ env; 


init database(wiser env *env, const char *db path) 


{ 


sqlite3 prepare(env->db, 
"SELECT token FROM tokens WHERE token like ? || '%';", 
-1, &env->token partial match st, NULL); 


a 


fin database(wiser env *env) 


{ 


sqlite3 finalize(env->token partial match st); 


SQL 中 的 “是 用 于 连接 字符 串 的 二 元 操作 符 。 也 就 是 说 ， 我 们 可 以 通 
过 “| 把 “9 连接 到 传 入 的 字符 事后 面 。 


本 

* 获取 与 给 定 的 字符 串 部 分 匹配 的 词 元 的 编号 的 列表 
* @param[in] env 存储 着 应 用 程序 运行 环境 的 结构 体 
*/ 












































int 

token partial match(const wiser env *env, const char *query, 
int query_len, 
UT_array *tokens) 


int rc; 
sqlite3 reset(env->token partial match st); 
sqlite3 bind text(env->token partial match st, 1, query, query_len, 
SQLITE_TRANSIENT ) ; 
while ((rc = sqlite3 step(env->token partial match st)) == 
SQLITE ROW) { 
char *title = (char *)sqlite3 column text(env->token partial match_ st, 
0); 
utarray_push_ back(tokens, &title); 


return 0; 








同样 不 要 起 记 将 该 函数 的 原型 声明 添加 到 database.h 中 。 


int token partial match(const wiser env *env, const char *query, 


int query_ len, UT_array *token ids); 











这 样 就 可 以 获取 以 某 个 字符 开头 的 词 元 列表 了 。 接 下 来 只 要 再 将 这 些 词 
元 所 对 应 的 检索 结果 合并 ， 就 可 以 得 到 最 终 的 检索 结果 了 。 


合并 检索 到 的 结果 


在 search.c 的 函数 search() 中 ， 我 们 设 定 了 一 旦 查询 字符 串 的 长 度 小 于 
词 元 的 最 大 长 度 ， 就 抛 出 一 条 错误 信息 。 











if (query32 len < env->token len) { 
print error("too short query."); 


} else { 





现在 ， 我 们 要 将 这 段 逻 辑 修改 成 下 面 这 样 。 


if (query32 len < env->token len) { 
char **p,; 
UT_array *partial tokens; 


utarray_new(partial tokens, &ut str icd); 
token partial match(env, query, strlen(query), partial tokens); 
for (p = (char **)utarray_ front(partial tokens); p; 


p = (char **)utarray next(partial tokens, p)) { 
inverted index hash *query_postings = NULL; 
token to postings list(env, 8, *p, strlen(*p), 60, &query postings); 
search docs(env, &results, query _ postings); 
} 
utarray_free(partial tokens); 
} else { 





首先 ， 调 用 刚刚 定义 好 的 函数 token_partial_match()， 获 取 以 给 定 的 查询 
字符 串 开 头 的 词 元 的 列表 。 然 后 ， 再 通过 循环 将 词 元 从 列表 中 逐一 取 
出 ， 并 通过 函数 token_to_postings_list() 获取 各 自 的 倒 排列 表 。 最 后 ， 

并 通过 函数 search_docs() 将 检索 结果 
合 放 色 一 起 。 


专 位 
如 何 实现 相似 文档 的 检索 


在 检索 的 过 程 中 ， 我 们 可 以 把 文档 看 作 是 词 元 的 集合 。 同 样 ， 也 可 
以 把 词 元 相对 较 少 的 查询 看 作 是 词 元 的 集合 。 也 就 是 说 ， 我 们 可 以 
认为 ， 所 谓 检 索 就 是 在 这 两 个 词 元 的 集合 间 进 行 相似 检索 。 其 中 的 
一 个 词 元 集合 是 查询， 为 一 个 是 作为 检索 对 象 的 文档 。 例 如 ， 只 要 
将 文档 作为 一 个 查询 发 送 给 搜索 引擎 ， 瓯 可 以 通过 倒 排 索引 实现 能 
查找 出 相似 文档 的 相似 文档 检索 了 。 


当 搜 索引 擎 接收 到 的 得 询 是 一 个 文档 时 ， 如 有 果 要 检索 出 包含 了 得 询 





中 所 有 词 元 的 文档 ， 就 需要 大 量 的 处 理 ， 而 且 这 样 做 对 于 “相似 ”的 
界定 也 未 免 有 些 过 于 严格 了 。 不 过 ， 例 如 通过 检索 只 包含 了 查询 中 
1 的 词 元 的 文档 ， 就 可 以 使 用 较 少 的 处 理 找 出 特征 相 
以 的 文档 了 。 





6-5 ”调整 控制 倒 排 索引 更 新 的 绥 冲 区 容量 

在 启动 wiser 时 ， 我 们 可 以 指定 控制 倒 排 索引 更 新 的 缓冲 区 容量 。 绥 冲 
区 容量 是 一 个 数值 ， 诀 定 了 可 在 内 存 上 临时 创建 的 倒 排 索引 的 大 小 。 绥 
冲 区 的 容量 越 大 ， 合 并 倒 排 索引 的 次 数 束 越 少 ， 构 建 倒 排 索引 的 速度 也 
束 越 快 ， 但 是 内 存 的 使 用 量 也 会 增 大 。 

下 面 就 让 我 们 来 确认 一 下 调整 缓冲 区 容量 所 引起 的 变化 吧 。 
确认 由 缓冲 区 容量 的 差异 带 来 的 不 同 效 果 


本 市 的 练习 内 容 束 是 仅 调 整 参数 t 的 操作 。 例 如 ， 我 们 试 着 分 别 执行 下 
面 的 3 条 命令 ， 并 比较 它们 的 执行 速度 。 


示例 




















> time ./wiser -x zhwiki-latest-pages-articles.xml -m 1666 -t 16 threshold 
《省 略 了 中 间 的 佑 干 行 输出 ) 

./wiser -x zhwiki-latest-pages-articles.xml -m 1666 -t 16 threshold 16.db 
284.61s user 24.47s System 99% cpu 3:49.96 total 


> time ./wiser -x zhwiki-latest-pages-articles.xml -m 1666 -t 166 threshold 
《省 略 了 中 间 的 佑 干 行 输出 ) 


./wiser -x zhwiki-latest-pages-articles.xml -m 1666 -t 166 threshold 166.db 
85.76s User 14.88s System 99% cpu 1:41.68 total 


> time ./wiser -x zhwiki-latest-pages-articles.xml -m 1666 -t 566 threshold 
《省 略 了 中 间 的 佑 干 行 输出 ) 

./wiser -x zhwiki-latest-pages-articles.xml -m 1666 -t 566 threshold 566.db 
70.46s User 9.29s System 99% cpu 1:26.11 total 











在 为 1000 个 词 条 构建 倒 排 罕 下 时 ， 根 据 绿 冲 区 容量 的 人 不同 有 如 下 到 


半 。o 
。 缓冲 区 最 多 可 存放 10 个 词 条 : 204 秒 
。 绥 冲 区 最 多 可 存放 100 个 词 条 : 85 秒 


。 缓冲 区 最 多 可 存放 500 个 词 条 : 70 秒 


由 此 可 以 看 出 ， 较 小 的 缓冲 区 会 花费 惊人 的 时 间 ; 而 一 旦 增 大 了 缓冲 区 

的 容量 ， 执 行 时 间 惑 会 纵 短 。 这 是 由 于 在 构建 倒 排 索引 时 ， 需 要 先 从 数 

据 库 中 获取 倒 排列 表 ， 然 后 将 其 与 缓冲 区 上 的 倒 排列 表 合 并 ， 最 后 将 合 

0 在 该 过 程 中 ， 处 理 次 数 的 不 同 导致 了 执行 时 间 
a 


用 sar 命令 分 析 负 载 


获取 、 存 储 倒 排列 表 的 过 程 会 产生 大 量 的 IO 操作 ， 而 在 合并 倒 排 列表 
的 时 候 ，CPU 又 会 忙碌 地 运转 起 来 。 


那么 ， 我 们 就 通过 sar 命令 来 分 析 一 下 CPU 和 LO 的 负载 吧 。 只 要 执行 
下 面 这 条 命令 ， 就 可 以 分 析出 CPU 和 磁盘 IO 的 负载 了 。 


示例 











> sar -du 1 166 1 


17:29:36 %usr %nice %sys %idle 
17:29:30 1 0 2 97 


17:29:36 device r+w/s blks/s 
17:29:36 disk06 83 2184 
17:29:36 disk2 0 0 





%idle 下 的 数字 越 小 说 明 CPU 的 负载 越 高 。r+w/s (Mac) 或 者 rd_sec/s 
和 wr_sec/s (Linux) 下 的 数字 越 大 说 明 人 磁盘 IO 的 负载 越 高 。 


请 诸位 也 亲自 用 Wikipedia 的 索引 检索 一 秋 ， 并 计算 一 下 CPU 和 磁盘 
IO 的 负载 吧 。 同 时 我 们 还 能 由 此 验证 出 启用 了 压缩 后 ， 虽 然 CPU 的 负 
载 升 高 了 ， 但 是 IO 的 负载 却 下 降 了 这 一 事实 。 


6-6 ”调整 只 有 英文 字母 的 词 元 的 分 割 方法 
如 何 避 人 免 用 英文 单词 检索 时 准确 紊 下降 的 问题 
在 wiser 中 句子 的 分 割 采 用 的 是 bi-gram， 但 是 使 用 了 由 bi-gram 构成 的 
倒 排 索引 的 检索 ， 其 准确 率 〈 将 在 7-1 节 讲 解 ) 通常 都 不 会 太 高 。 特 别 
是 在 用 英语 检索 时 ， 这 个 问题 就 会 更 加 明显 。 作 为 避免 该 问题 的 方法 之 
一 ， 我 们 可 以 像 下 面 这 样 针 对 不 同类 型 的 字符 调整 词 元 的 分 割 方法 。 
。 当 遇 到 喘 文 字符 时 
> 将 非 英 文字 符 出 现 前 的 连续 出 现 的 所 有 英文 字符 作为 一 个 词 元 
。 当 遇 到 非 英 文字 符 时 
-和 原先 一 样 ， 用 bi-gram 分 割 词 元 
下 面 ， 我 们 束 来 尝试 实现 这 个 方法 。 
如 何 判断 某 字 符 是 否 属于 索引 对 象 


\ 在 分 割 词 元 时 ， 函 数 wiser_is_ignored_char0 的 作用 是 判断 给 定 的 字符 
是 否 属 于 索引 对 象 。 那 么 ， 该 函数 是 如 何 处 理 的 呢 ? 


























ph 




















* 检查 传 入 的 字符 (UTF32〉 是 否 不 属于 索引 对 象 
* @param[in] ustr 传 入 的 字符 (UTF32) 
* @return 是 否 是 空白 字符 
* @retval 6 不 是 空白 字符 
* @retval 1 是 空白 字符 
*/ 
static int 
wiser_ is ignored char(const UTF32Char ustr) 




















{ 
switch (ustr) { 
case ' ': case '\f': case '\n': case '\r': case '\t': case '\V': 
case '!l': case '"':; case '#': case '$': case '%': case '&': 
Case '\'': case '(': Case ')': case '*':; Case '+': Case ',': 


CAaSE “Case CAaSe A 


Case ':': Case ';': Case '"《〈《': Case '=': Case '>': case '?': Case 'Q@': 
case '[': case '\\': case '|]': case '^': case ' ': Case ' ': 
case '{': case '|': case '}': case '~': 
case 6x3666: /* 全 角 空 格 */ 
case 06X3661: /* 、 */ 
case Ox36062: /* 。 */ 
case OxFFe8: /* ( */ 
case OxFFe89: /* ) */ 
case OxFFO1: /* 1 */ 
case 6@XFFOC: /* , */ 
case OxFF1A: /* : */ 
case OxFF1B: /* ; */ 
case OxFF1F: /* »? */ 
return 1; 
default: 
return ©; 
} 
} 








由 于 在 本 书 中 我 们 所 使 用 的 文本 含有 Wikipedia 特有 的 Wiki 标记 ， 所 以 
其 中 会 混 有 各 种 各 样 的 符号 “。 

















4 关于 中 文 标点 符号 的 Unicode 编码 可 参考 http://www.unicode.org/chars/PDF/U3000.pdf 和 
http://www.unicode.org/chars/PDF/UFF00.pdf。 一 一 译 者 注 








在 wiser 中 ， 我 们 放弃 了 如 实地 解析 Wiki 标记 ， 而 是 选择 忽略 在 
Wikipedia 的 标记 法 中 使 用 的 各 种 符号 。 之 所 以 这 样 处 理 ， 是 为 了 避免 
大 量 出 现 的 wiki 标记 导致 构建 索引 时 负载 升 高 。 基 于 同样 的 原因 ， 我 
们 还 会 将 “， 关 。” 这 样 的 标点 符号 排除 在 索引 对 象 之 外 。 这 也 算是 一 种 
停 用 词 (Stop Words) 。 有 关 停 用 词 的 详细 解释 请 参考 第 7 章 。 


修改 负责 分 割 词 元 的 函数 
token.c 中 的 函数 ngram_- 的 作用 是 用 bi-gram 分 割 词 元 。 每 次 调用 


该 函数 ， 我 们 都 能 取出 一 个 含有 n 个 字符 的 词 元 ， 除 非 遇 到 了 空格 或 是 
指针 指向 了 字符 电 的 末尾， 

















含有 n 个 字符 的 词 元 ， 除 非 遇 到 了 非 索引 对 象 的 字符 或 是 指针 p 到 达 了 字符 串 的 结尾 * 


for (i = 6, p = ustr; i < n && p < ustr end && lwiser is ignored char(*p); 








下 面 我 们 试 着 对 该 函数 做 如 下 的 修改 。 


if (wiser isalpha(*ustr)) { 
/* 将 连续 出 现 的 英文 字母 视 作 一 个 词 元 */ 
for (p = ustr; p < ustr end && wiser isalpha(*p); p++) { 
} 


/* 将 最 后 一 个 英文 字母 之 后 的 一 个 字符 当 作 下 一 个 词 元 的 起 始 字符 */ 











入 有 n 个 字符 的 词 元 ， 除 非 遇 到 了 空格 或 英文 字母 ， 或 是 指针 p 到 达 了 字符 串 的 末 
= Ustr,; 
< ustr_ end && Iwiser is ignored char(*p) && lwiser isalph 











*next = ustr + 1; 








在 分 割 词 元 时 ， 如 果 第 一 个 字符 是 英文 字母 ， 就 将 从 这 个 字母 开始 一 直 
到 最 后 一 个 英文 字母 为 止 的 这 一 整 段 英文 字母 作为 1 个 词 元 处 理 。 否 
则 ， 就 还 按 原来 的 方法 处 理 ， 即 取出 由 n 个 字符 构成 的 词 元 。 


函数 wiser_isalpha() 是 个 简单 直观 的 函数 ， 其 实现 如 下 所 示 。 











/** 





* 检查 传 入 的 UTF32 的 字符 是 否 是 英文 字母 
* @param[in] ustr 输入 的 字符 (UTF-32) 
* @return 是 否 是 英文 字母 

* @retval 6 不 是 英文 字母 

* @retval 1 是 英文 字母 

*/ 

static int 

wiser isalpha(const UTF32Char ustr) 





























ustr && ustr <= 'Z" 
ustr && ustr <= 'Zz 
return 
} else { 
return 0; 
} 
} 


| | 


可 以 看 出 ， 在 这 里 我 们 仅仅 对 英文 字母 进行 了 特殊 处 理 。 其 实 对 于 带 有 
附加 符号 (Diacritical Mark) 〈 如 变 音 符 〈Umlaut) 等 ) 的 拉丁 字母 也 
应 该 进行 特殊 处 理 。 而 且 ， 与 英文 字母 一 样 ， 数 字 和 符号 等 字符 也 不 属 
于 N-gram， 上 所 以 在 取出 时 应 该 将 连续 出 现 的 数字 或 符号 等 算 作 一 个 词 

Es 





6-7 ”确认 压缩 的 效果 
观察 Golomb 编码 的 效果 


在 wiser 中 ， 默 认 情 况 下 会 将 经 过 Golomb 编码 压缩 后 的 倒 排列 表 存 储 
到 数据 库 中 ， 不 过 在 启动 时 指定 了 参数 “-c none”， 即 可 禁用 压缩 。 


下 面 ， 就 让 我 们 通过 改变 参数 -c 的 取 值 ， 来 验证 一 下 Golomb 编码 所 种 
来 的 压缩 效果 吧 。 


示例 


> ./wiser -c none -x zhwiki-latest-pages-articles.xml -m 1666 Wikipedia 166 








在 这 里 我 们 依然 可 以 使 用 sar 命令 来 对 比 压缩 局 用 前 后 构建 索引 的 负 
载 。 构 建 完 成 后 ， 在 分 别 用 经 过 压缩 和 未 经 过 压缩 的 索引 进行 检索 时 ， 
还 可 以 再 比较 一 下 磁盘 WO 和 CPU 的 使 用 率 。 


对 比 压 缩 甩 用 前 后 的 索引 大 小 


前 面 己 经 讲 过 ， 压 缩 索 引 可 以 减少 磁盘 的 IO。 下 面 我 们 就 再 来 看 一 下 
存储 压缩 后 的 索引 究竟 可 以 节省 多 少 存 储 空间 吧 。 


索引 的 大 小 可 以 通过 查询 SQLite 来 获取 。 因 此 我 们 先 指 定 创建 好 的 索 
引 数 据 库 ， 调 出 SQLite 的 交互 环境 。 


示例 


> sqlite3 wikipedia.db 


倒 排列 表 存 储 在 tokens 表 的 postings 字段 中 。 通 过 执行 以 下 的 SQL 语 
句 ， 即 可 获取 到 以 字 节 为 单位 的 倒 排 列表 的 大 小 ， 其 中 用 到 了 能 够 返回 
列 中 字符 串 长 度 的 函数 LENGTH() 和 对 列 中 数据 求 和 的 统计 函数 
SUM0)。 











示例 


> sqlite 
> SELECT SUM(LENGTH(postings)) FROM tokens ; 


专 作 
避免 滥用 全 文 搜索 引擎 
在 调研 要 采用 哪 种 全 文 搜 索引 擎 时 ， 一 般 部 要 考虑 是 否 还 有 其 他 代 


蔡 方案 。 


正如 本 书 所 介绍 的 ， 全 文 搜索 引擎 的 确 可 以 利用 索引 提高 文档 检索 
的 效率 。 但 是 索引 的 大 小 会 随 独 文档 数量 的 增多 而 变 大 ， 索 引 大 小 
一 旦 变 大 ， 残 需要 更 大 的 内 存 或 存储 妖 等 存储 设备 ， 这 束 意 味 着 维 
护 检索 服务 的 成 本 也 会 随 之 增 大 。 


近 几 年 ， 出 现 了 一 些 只 需要 借助 基于 HTTP 的 API， 用 户 就 可 以 轻 
松 使 用 的 全 文 搜索 引擎 。 由 于 在 服务 中 引入 这 类 引擎 的 过 程 非常 简 
单 ， 所 以 笔者 也 非常 能 理解 那 种 想 要 轻 轻松 松 地 引入 引擎 的 渴望 。 
但 是 ， 如 果 再 重新 审视 一 下 服务 中 的 需求 ， 就 会 发 现 有 时 不 使 

用 “全 文 搜索 ”一 样 能 满足 需求 。 


例如 ， 试 痢 考虑 一 下 提供 商品 买卖 服务 的 场景 。 假 设 需求 是 “和 输出 
某 个 商家 正在 出 售 的 商品 列表 ”。 那 么 ， 在 这 种 场景 下 ， 由 于 每 件 
商品 都 拥有 用 文本 表示 的 商家 名 称 ， 所 以 此 时 我 们 的 确 可 以 使 用 全 
文 搜索 引 车 来 和 选 每 个 商品 。 


























00004 三 并 








例如 ， 用 “A 公司 ?进行 检索 ， 就 能 检索 出 “A 公司 ”的 商品 。 


除 此 以 外 ， 我 们 还 可 以 在 RDBMS 上 为 每 个 商家 分 配 一 个 ID， 然 
后 将 商家 ID 关联 到 商品 上 ， 最 后 再 通过 这 个 ID 进行 检索 。 








只 要 用 “1” 在 商家 ID 中 检索 ， 束 可 以 榨 索 出 “A 公司 ?出 售 的 商品 


一 | 





这 样 不 但 数据 量 要 少 得 多 ， 而 且 也 不 需要 使 用 全 文 搜索 引擎 了 。 也 
许 诸位 会 认为 "一般 也 不 会 像 第 一 种 方案 那样 做 啊 ”。 但 事实 好 像 一 
且 有 了 更 加 方便 的 系统 ， 人 们 融会 情 不 自 茶 地 去 使 用 。 因 此 ， 笔 痢 
ee 
列 。 


更 进一步 讲 ， 也 许 有 人 认为 第 一 种 方案 使 用 起 来 更 加 方便 ， 因 为 即 


使 只 检索 “A”， 也 能 得 到 有 关 “A 公司 ”的 检索 结果 。 虽 然 这 种 想法 
并 没有 错 ， 但 是 最 终结 果 与 为 此 投入 的 必要 资源 是 否 匹 配 还 是 值得 
研讨 的 。 


全 文 搜索 是 一 种 不 需要 预先 设 定 用 户 将 会 输入 的 碍 询 即 可 进行 搜索 
的 优秀 解决 方案 ， 但 是 在 它 的 实现 过 程 中 却 需 要 花费 大 量 的 资源 。 
也 可 以 这 样 伟 张 地 来 理解 : 作为 信息 检索 方法 的 全 文 搜索 ， 就 是 一 
种 不 到 万 不 得 已 时 不 要 使 用 的 非常 手段 。 正 所 谓 “ 杀 鸡 吉 用 牛刀 ”。 
但 是 ， 对 于 真正 需要 的 场景 ， 也 不 必 戎 缩 ， 请 果断 地 使 用 全 文 搜索 
吧 。 



































第 7 章 为 今后 更 加 深入 的 学 习 做 
准备 
本 书 汇总 了 搜索 引擎 的 基础 知识 以 及 提供 由 搜索 引擎 支撑 的 服务 时 所 需 


要 的 最 基本 的 知识 。 尽 管 如 此 ， 显 然 还 有 很 多 技术 和 知识 在 本 书 中 并 没 
有 涉及 。 


因此 ， 我 们 会 在 本 半 简 单 地 介绍 一 下 这 些 技 术 和 知识 。 如 果 诸 位 还 想 更 
加 深入 地 学 习 这 部 分 内 容 ， 建 议 去 查阅 一 些 有 关 搜 索引 擎 的 专业 书籍 。 
想必 读 过 本 书后 ， 诸 位 一 定 能 顺利 地 读 懂 那些 专业 书籍 。 











7-1 wiser 没 能 实现 的 功能 
首先 ， 我 们 来 看 一 些 比 较 深 入 的 、 在 wiser 中 没 能 实现 的 功能 


倒 排 索引 之 外 的 全 文 搜索 索引 


除了 本 书 所 涉及 的 倒 排 索引 以 外 ， 在 全 文 搜 索 中 还 有 各 种 各 样 的 索引 。 
例如 ， 对 字符 串 的 后 级 进行 排序 ， 使 得 子 字符 串 可 供 检索 的 Suffix 
Array。 还 有 作为 由 Suffix Array 发 展 而 来 的 索引 结构 ， 近 年 来 倍 受 瞩 目 
的 FM-index 和 Compressed Suffix Arrays (CSA) 等 。 关 于 这 些 技术 的 
详细 内 容 ， 请 参考 《字符 串 融 速 解析 的 世界 : 数据 压缩 全 文 搜索 :文本 

安 据 》“【〔 岂 野 原 大 辅 著 ， 宕 波 书 店 )， 这 本 书 可 称 得 上 是 有 关 最 前 沿 
的 全 文 搜索 的 指南 1。 


1 原 书 名 为 《高 速 文 字 列 解析 中 世界 一 却 一 久 压 缩 -全 文 检索 : 孝 寺 又 下 局 二 少 》， 目前 
还 没有 类 似 的 中 文书 籍 。 译 者 注 


高 效 处 理 大 规模 数据 的 存储 融 


在 wiser 中 ， 我 们 将 SQLite 作为 存储 器 使 用 ， 但 这 未 必 是 最 佳 的 方案 。 

因为 在 大 多 数 情 况 下 ， 全 文 搜索 引擎 所 处 理 的 都 是 大 规模 的 数据 。 为 了 
提高 处 理 效率 ， 我 们 需 ;要 设法 优化 用 于 存储 索引 的 数据 布局 以 及 对 于 该 
布局 的 输入 输出 方法 。 因 此 Groonga 和 Apache Lucene 等 搜索 引擎 框架 
中 的 倒 排 索引 都 采用 了 私有 的 数据 布局 来 存储 索引 。 


利用 缓存 提高 检索 的 速度 


在 进行 检索 时 ， 搜 索引 擎 要 从 磁盘 等 二 级 存储 器 中 加 载 倒 排列 表 ， 不 过 
只 需 先 将 经 党 加载 的 倒 排 列表 缓存 到 内 存 中 ， 有 时 就 可 以 避免 每 次 检索 
时 都 从 磁盘 加 载 了 。 而 且 ， 只 要 先 将 检索 结果 本 身 缓 存 起 来 ， 当 再 遇 到 
同样 的 得 询 时 ， 就 可 以 省 略 挥 检索 处 理 的 环节 了 。 


由 于 我 们 将 对 缓存 〈 绥 冲 区 ) 的 管理 委托 给 了 操作 系统 ， 所 以 在 wiser 
中 并 没有 明确 地 进行 有 关 绥 存 的 操作 。 也 惑 是 说 ， 我 们 并 没有 利用 各 碍 
询 的 检索 频率 和 对 倒 排 列表 的 访问 频率 等 搜索 引擎 所 固有 的 信息 ， 这 意 
味 着 在 wiser 中 还 有 大 量 的 地 方 可 以 优化 。 




































































使 用 各 种 各 样 的 压缩 方法 


在 wiser 中 ， 我 们 借助 Golomb 编码 实现 了 倒 排 列表 的 压缩 。 除 此 以 
外 ， 其 实 还 有 在 第 5 章 讲解 过 的 variable-byte 编码 以 及 将 在 附录 部 分 介 
绍 的 Simple 9 和 PForDelta 等 各 种 各 样 的 压缩 方法 。 由 于 压缩 整数 序列 
既是 一 个 非常 普遍 的 问题 ， 又 有 着 广泛 的 应 用 范围 ， 所 以 一 直 以 来 研 
帘 人 员 都 在 提出 各 种 各 样 的 压缩 方法 。 


在 选择 压缩 方法 的 时 候 ， 需 要 权衡 压缩 的 利 敬 。 例 如 ， 在 检索 处 理 的 过 
程 中 ， 虽 然 使 用 压缩 率 较 高 的 Golomb 编码 相对 于 不 压缩 ， 能 够 减少 输 
入 输出 的 数据 量 〈 以 及 占用 的 存储 空间 ) ， 但 是 解码 时 却 会 因此 产生 额 
外 的 CPU 负载 。 所 以 在 CPU 的 时 钟 频率 相对 低 于 输入 输出 带宽 的 人 硬件 
环境 中 ， 为 了 提升 速度 而 使 用 压缩 有 时 并 不 是 一 个 好 方案 。 因 此 ， 我 们 
需要 根据 目标 和 使 用 的 硬件 环境 来 选择 合适 的 压缩 方法 。 


优化 搜索 结果 的 排名 

在 wiser 中 ， 我 们 将 由 文档 内 容 计算 得 出 的 TF-IDF 值 作为 了 检索 结 
排名 的 依据 。 另 外 ， 我 们 还 在 第 1 章 提 到 了 癌 量 空间 模型 中 的 余弦 相似 
度 和 Okapi BM25。 除 此 之 外 ， 还 在 第 6 章 介 绍 了 像 PageRank 那样 的 由 
文档 间 的 链接 结构 计算 出 的 排名 指标 。 

检索 结果 的 排列 顺序 要 “ 排 得 好 ”， 很 大 程度 上 取决 于 检索 服务 以 及 用 户 
的 需求 ， 因 此 并 没有 正确 的 答案 。 于 是 ， 我 们 在 提供 检索 服务 时 ， 就 要 
考虑 这 些 因 系 并 将 上 述 指标 结合 起 来 ， 并 以 不 断 优 化 排名 结果 为 目标 。 


近 几 年 ， 研 究 人 员 正 在 开展 有 关 Learning to rank 的 研究 工作 ， 这 是 一 种 
让 系统 基于 来 自 搜 索引 擎 用 户 的 反馈 学 习 如 何 排名 的 方法 。 


调整 准确 紊 和 召回 率 


准确 率 (Precision) 和 召回 率 “ (Recall) 是 两 个 能 够 定量 评价 全 文 搜索 
结果 的 指标 。 


?也 称 为 查 全 率 。 一 一 译 者 注 


假设 搜索 引擎 的 用 户 用 茶 个 关键 词 进行 了 检索 后 检查 了 所 有 的 文档 ， 并 























将 这 些 文档 分 成 了 以 下 3 组 。 
。 人 A 组 : 实际 检索 出 的 文档 的 集合 
。B 组 : 和 查询 相关 的 文档 的 集合 


。C 组 : 既 属 于 A 组 也 属于 B 组 ， 即 和 查询 相关 而 实际 也 确实 检索 
出 的 文档 的 集合 


准确 紊 和 召回 率 束 可 以 用 这 3 个 文档 的 集合 来 定义 。 具 体 的 计算 方法 如 
图 7-1 所 示 。 








和 查询 相关 的 所 有 文档 
{B 





准确 率 = C { 在 实际 检索 出 的 文档 中 ， 符 合 查询 的 
A 文档 所 占 的 比率 ) 


召回 率 - <” 【在 和 查询 相关 的 所 有 文档 中 ， 检 索 出 
B 的 文档 所 占 的 比率 ) 


图 7-1 准确 率 与 召回 率 


从 这 两 个 数值 可 以 很 直观 地 看 出 ， 如 果 准 确 率 较 低 ， 则 说 明 “ 出 现 的 都 
古 些 和 查询 无 关 的 检索 结果 ”有 反 过 来 ， 如 果 召 回 率 较 低 ， 则 说 明 “ 对 于 
某 个 查询 ， 明 明 应 该 检索 出 菜 茶 结果 的 ， 实 际 上 却 几 乎 看 不 到 这 样 的 结 
果 ”。 无 论 是 哪 一 种 情况 ， 都 是 我 们 不 愿意 看 到 的 。 


准确 率 与 召回 率 一 般 是 无 法 兼 得 的 。 也 就 是 说 ， 如 果 其 中 的 一 个 值 提高 
了 ， 男 一 个 值 束 会 降低 。 例 如 ， 我 们 来 考虑 这 样 一 种 极 并 情 况 。 假 设 所 
有 文档 都 作为 检索 结果 返回 了 ， 那 么 此 时 虽然 准确 率 极 低 ， 但 是 召回 率 





却 高 达 100%。 可 这 样 的 搜索 引擎 会 有 实用 价值 吗 ? 由 于 根本 就 没有 进 
行 任 何 筛选 过 滤 ， 上 所 以 能 否 称 其 为 搜索 引擎 都 是 值得 怀疑 的 。 


要 想 提 升 准确 紊 ， 束 需要 从 检索 结果 中 崭 除 不 相关 的 文档 。 但 是 ， 由 于 
判断 “是 否 相关 ?本 来 就 很 困难 ， 所 以 在 这 个 过 程 中 ， 免 不 了 会 将 那些 本 
应 该 是 相关 的 检索 结果 也 剔除 掉 。 因 此 ， 我 们 需要 根据 搜索 服务 的 性 质 
及 用 途 对 准确 率 和 如 回 率 做 出 适当 的 调整 。 


改变 词 元 的 提取 方式 是 调整 准确 紊 和 召回 率 的 方法 之 一 。 昌 然 在 本 书 中 
我 们 是 使 用 N-gram 将 句子 分 割 成 词 元 的 ， 但 是 只 要 改 用 词 系 解析 的 方 
式 ， 一般 就 可 以 提升 准确 率 。 


例如 ,假设 用 户 想 要 了 解 “华山 ”的 信息 。 那 么 ， 如 果 只 从 字面 上 来 看 ， 
在 检索 “华山 "时 ， 检 索 出 了 含有 “ 九 华山 ”的 文档 也 是 有 可 能 的 。 但 是， 
从 意思 上 来 看 ,“ 九 华山 "和 “华山 ”又 是 完全 不 同 的 。 由 于 词 系 解析 会 将 
句子 分 割 成 有 意义 的 单位 ( 词 系 ) ， 所 以 即便 是 检索 “华山 ”， 也 检索 不 
出 含有 “ 九 华山 ”的 文档 。 


也 就 是 说 ， 词 素 解析 与 N-gram 一 般 会 呈现 出 如 下 的 关系 。 
。 相 对 于 N-gram， 使 用 词素 解析 能 够 提升 准确 率 
。 相对 于 词素 解析 ， 使 用 N-gram 能 够 提升 召回 率 


请 诸位 务必 挑战 一 下 通过 词素 解析 分 割 词 元 的 过 程 ， 感 受 一 下 准确 率 和 
召回 率 间 的 关系 。 


降低 检索 结果 排序 处 理 的 负载 


面 对 大 量 的 检索 结果 ， 对 其 进行 排序 本 身 就 会 产生 巨大 的 负载 。 由 于 一 
般 的 搜索 引擎 只 会 呈现 最 前 面 的 玉 (K = 二 10~100) 条 检索 结果 ， 所 以 只 
需要 对 前 天 条 检索 结果 排序 即 可 。 也 就 是 说 没有 必要 像 现 在 的 wiser 那 
样 对 全 部 检索 结果 都 进行 排序 。 


这 样 的 话 ， 束 会 经 常用 到 堆 这 种 数据 结构 ， 以 提升 解决 Top-K Sort 问 
题 ， 即 对 前 天 条 检索 结果 排序 的 效率 。 例 如 ， 我 们 可 以 通过 C++ 中 的 
std::partial_sort，Perl 中 的 Sort::Key::Top 以 及 SQL 中 的 方言 SELECT 
TOP(K) 或 ORDER BY col LIMIT K 等 来 提升 解决 Top-K Sort 的 效率 。 























另外 ， 请 诸位 注意 这 样 一 点 ， 如 果 想 从 第 91 条 结果 开始 呈现 出 10 条 结 
果 的 话 ， 就 要 先 对 前 100 条 结果 排序 ， 然 后 再 从 第 91 条 结果 开始 取出 
10 条 结果 。 也 就 是 说 ， 此 时 天 的 取 值 是 100 而 不 是 10。 


并 行 处 理 


在 wiser 中 ， 无 论 是 构建 倒 排 索引 ， 还 是 使 用 倒 排 索引 进行 检索 ， 都 是 
在 1 台 计 算 机 上 进行 的 。 由 于 1 人 台 计算 机 能 处 理 的 索引 规模 是 有 限 的 ， 
所 以 要 想 使 用 大 规模 的 索引 ， 束 需要 使 用 多 台 计 算 机 对 那些 索引 进行 并 
行 处 理 。 关 于 并 行 处 理 的 细节 请 参考 附录 。 


结合 对 属性 的 筛选 过 滤 


有 些 搜索 服务 会 结合 全 文 搜索 和 属性 值 史 配 两 个 维度 对 文档 进行 筛选 过 
滤 。 例 如 ， 在 商品 检索 中 ， 整 经常 可 以 看 到 能 够 指定 价格 范围 以 配合 关 
键 词 检索 的 实例 。 


在 上 述 场景 中 ， 全 文 搜索 引擎 需要 具备 根据 属性 进行 和 选 过 滤 的 功能 。 
而 且 ， 在 对 文档 进行 筛选 过 滤 的 过 程 中 ， 全 文 搜索 引擎 还 需要 正确 地 判 
断 出 是 先进 行 全 文 搜索 好 ， 还 是 先进 行 属 性 值 匹配 好 。 例 如 ， 相 对 于 全 
文 搜 索 ， 通 过 属性 值 匹 配 能 够 更 好 地 筛选 过 滤 文 档 时 ， 就 应 该 先 按 照 属 
人 
系 的 束 迟 。 


分 面 搜索 
诸位 在 购物 网 站 上 进行 检索 时 ， 有 没有 过 因为 查找 到 的 商品 过 多 而 感到 
厌烦 的 情况 呢 ?” 所 谓 分 面 搜索 (Faceted Search) 就 是 一 种 针对 检索 结 
果 ， 检 索 每 一 个 属性 值 ， 然 后 再 将 各 个 属性 值 对 应 的 结果 数 呈 现 出 来 的 
技术 。 例 如 在 购物 网 站 中 检索 “服装 *?， 束 可 以 看 到 如 下 所 示 的 用 于 沛 选 
过 滤 的 属性 值 ， 以 及 用 各 个 属性 值 检索 出 的 结果 数 。 

。 图 书 (1360) 

。 服饰 箱包 (397) 


。 刁 了 晏 用品 (92) 


























Groonga 和 Apache Lucene 等 都 提供 了 能 够 轻松 进行 分 面 搜索 的 功能 和 
相应 的 API。 


专栏 
时 延 和 吞吐 量 


面 对 来 自 大 量 用 户 的 各 种 各 样 的 查询 ， 我 们 希望 Web 上 的 检索 系 
统 能 够 快速 地 呈现 出 检索 结果 。 


这 里 所 说 的 “快速 "有 两 层 含义 : 一 个 是 时 延 小 ;一 个 是 吞吐 量 高 。 


时 延 指 的 是 从 接收 到 处 理 请 求 到 将 处 理 结 条 返回 给 请 求 者 的 时 间 。 
大 多 数 人 一 昕 到 “快速 "可 能 就 会 联想 到 时 延 小 。 男 一 方面 ， 奉 吐 量 
指 的 是 在 一 定时 间 内 能 够 处 理 的 请 求 量 。 


一 般 来 说 ， 时 延 和 吞吐 量 是 无 法 兼 得 的 。 也 就 是 说 ， 将 其 中 一 方 调 
优 了 ， 另 一 方 就 会 恶化 。 例 如 ， 试 想 在 单 核 CPU 的 计算 机 上 进行 
检索 处 理 。 检 索 处 理 分 为 CPU 处 理 和 VO 处 理 两 部 分 。 在 一 般 情 
况 下 ， 进 行 /O 处 理 时 ，CPU 是 处 于 空 闪 状态 的 。 因 此 ， 在 查询 1 
进行 VO 处 理 时 ， 如 果 收 到 了 一 个 来 自 查 询 2 的 请 求 ， 那 么 此 时 

CPU 可 以 先进 行 查询 2 的 CPU 处 理 。 像 这 样 ， 通 过 用 1 个 CPU 并 
行 地 处 理 多 个 请 求 ， 就 应 该 可 以 提升 吞吐 量 。 


接 下 来 ， 假 设 在 进行 查询 2 的 CPU 处 理 时 ， 查 询 1 的 1/O 处 理 结 
束 了 。 那 么 ， 由 于 此 时 CPU 还 在 执行 对 查询 2 的 处 理 ， 所 以 从 此 
刻 到 查询 / 恢复 CPU 处 理 之 时 会 产生 一 段 等 待 时 间 。 也 就 是 说 ， 

和 











7-2 全文 搜索 引擎 Groonga 的 特点 


全 文 搜 索引 擎 Groonga 是 一 款 笔 者 〈 末 永 ) 也 参与 了 开发 的 开源 全 文 搜 
索引 擎 。 本 市 我 们 就 来 了 解 一 下 Groonga 的 特点 吧 。 


通过 词 元 的 部 分 一 致 检索 提升 召回 率 
在 上 一 小 节 讲 解 准确 率 和 召回 率 时 ， 我 们 说 过 ， 用 户 并 不 希望 在 检 


索 “ 华 山 ? 时 看 到 包含 “ 九 华山 ?的 文档 。 但 是 ， 万 一 用 "华山 ? 连 一 个 文档 
都 检索 不 到 时 ， 提 供给 用 户 包 仿 “ 九 华山 ”的 检索 结果 也 不 失 为 一 种 对 
寅 。 





在 Groonga 中 ， 当 检索 结果 小 于 一 定数 量 时 ，Groonga 就 会 进行 两 种 附 
加 检索 。 第 一 种 附加 检索 是 把 查询 字符 串 本 身 当 作 一 个 词 元 进行 的 检 

索 。 以 “北京 大 学 ”这 个 查询 字符 串 为 例 ， 在 大 多 数 情况 下 ，Groonga 还 
是 会 通过 词素 解析 等 手段 将 其 分 割 为 “北京 ”和 “大 学 ”两 个 词 元 ， 然 后 再 
分 别 对 二 者 进行 检索 。 而 一 旦 检索 结果 的 数量 不 足 ，Groonga 就 会 把 “ 北 
京 大 学 ” 当 作 是 1 个 词 元 进行 附加 检索 。 


根据 上 下 文 的 不 同 ， 词 素 解 析 器 对 词 元 的 分 割 位 置 也 会 发 生变 人 化。 同样 
是 “北京 大 学 ”有 时 会 将 其 分 割 为 “北京 “和 “大 学 ”两 个 词 元 ， 有 时 叉 会 
将 其 解释 成 是 一 个 词 元。 不 过 ， 通 过 上 述 琐 上 略 即 可 防止 这 种 由 词素 解析 
的 不 稳定 而 引起 的 检索 遗漏 。 


即使 进行 了 上 述 附 加 检索 ， 检 索 结果 也 依然 少 于 预期 的 数量 时 ， 作 为 男 
一 种 附加 检索 ，Groonga 会 进行 词 元 的 部 分 一 致 检索 。 在 Groonga 中 ， 
开发 者 们 通过 半 无 限 长 字 串 《后 缀 ) 和 前 方 一 致 检索 的 结合 实现 了 词 元 
的 部 分 一 致 检索 。 


所 谓 半 无 限 长 字 串 是 指 从 某 个 字符 串 中 去 掉 0 个 以 上 的 起 始 字 符 后 所 剩 

的 字符 串 。 在 Groonga 中 ，pat.c 中 的 sis 〈 即 Semi-InfiniteString 的 缩 

0 “北京 大 学 ”的 半 无 限 长 字 串 如 下 
示 。 


北京 大 学 























假设 我 们 在 检索 * 京 大 * 这 个 字符 串 时 没有 找到 任何 检索 结果 。 这 时 
Groonga 会 发 现 “ 京 大 学 ”与 “ 京 大 ”的 前 半 部 分 是 一 致 的 ， 进 而 判断 出 “ 京 
大 学 ?是 由 “北京 大 学 ?这 个 词 元 产生 的 半 无 限 长 字 串 ， 于 是 接 下 来 就 会 
开始 用 “北京 大 学 "进行 检索 。 通 过 这 样 的 对 策 ， 即 使 接收 到 了 比 词 元 还 
要 短 的 查询 字符 串 ，Groonga 也 能 设法 提升 召回 率 。 


另外 ， 为 了 存储 词 元 和 半 无 限 长 字 串 ， 开 发 者 们 还 在 Groonga 中 采用 了 
文 持 前 方 一 直 检 索 的 称 作 基数 字典 树 (Patricia Trie) 的 数据 结构 。 


使 用 内 存 映 射 文件 


在 Groonga 中 ， 开 发 者 们 通过 内 存 映 射 文件 (Memory-Mapped File) 将 
文件 的 内 容 映 射 到 了 内 存 空 间 ( 虚 拟 存储 空间 〉 。 具 体 来 说 就 是 在 
lib/io.c 中 ， 通 过 调用 系统 内 核 函数 mmap() 来 使 用 内 存 映射 文件 。 


使 用 内 存 映 射 文件 既 有 好 处 又 有 坏处 。 好 处 是 由 于 可 以 省 略 掉 从 操作 系 
统 中 的 内 核 空 间 疝 用 户 空 间 复制 不 必要 的 数据 的 环节 ， 所 以 在 绝 大 多 数 
情况 下 都 可 以 加 快 VO 处 理 的 速度 。 而 且 ， 从 易于 实现 的 角度 来 看 ， 对 
于 那些 利用 了 多 进程 或 多 线程 同时 对 索引 等 进行 引用 的 搜索 引擎 而 言 ， 
0 
难度 。 


而 使 用 内 存 映射 文件 的 缺点 则 在 于 ， 当 需要 将 已 写 入 内 存 的 内 容 同步 到 
文件 时 ， 除 非 明确 地 调用 msync0 等 图 数 ， 人 否则 同步 工作 惑 会 由 操作 系 
统 来 接管 。 因 此 ， 万 一 在 写 入 文件 的 过 程 中 发 生 了 进程 死 掉 等 异常 情 
况 ， 我 们 将 完全 不 清楚 哪些 数据 已 经 写 到 文件 中 了 。 换 言 之 就 是 ， 由 于 
很 容易 及 生 数 据 被 破坏 等 异常 情况 ， 所 以 在 实现 时 需要 倍加 注意 。 


另外 ， 由 于 有 些 操作 系统 无 法 提供 稳定 的 内 存 映 射 文件 功能 ， 所 以 要 在 
内 存 和 文件 间 反 复 进 行 数据 传输 。 


毛 段 









































在 很 多 Web 检索 服务 中 ， 都 会 在 网 页 的 标题 下 方 亚 示 一 段 网 页 内 容 的 
摘要 。 在 检索 中 ， 我 们 将 这 样 的 摘要 信息 称 为 片段 〈Snippet) 。 


在 Groonga 中 实现 了 能 够 快速 生成 片段 的 功能 。 睫 段 的 基本 诛 理 就 是 先 
从 文档 中 找 出 检索 关键 词 ， 然 后 取出 其 前 后 的 句子 。 接 下 来 ， 还 要 对 包 
含 在 句 中 的 检索 关键 词 部 分 进行 高 亮 处 理 。 


作为 进一步 的 处 理 ， 还 要 对 简体 字 和 繁体 字 ， 全 角 字 符 和 半角 字符 的 差 
异 进行 归 一 化 处 理 。 这 样 就 能 生成 片段 了 。 男 外 ，Groonga 还 对 网 页 中 

的 HTML 元 字符 进行 了 转 义 处 理 (Escape) ， 并 且 人 允许 开发 者 为 与 检索 
关键 词 对 应 的 部 分 赋予 任意 的 HTML 标签 。 


有 关 片 段 功能 的 源 代码 部 写 在 了 lib/snip.c 中 ， 有 兴趣 的 读者 不 妨 去 读 一 


读 。 
专 三 
宣传 活动 的 重要 性 


Groonga 是 一 球 基 于 LGPL 的 开源 软件 。 由 于 能 够 吸引 大 量 用 户 使 
用 ， 所 以 开源 软件 具有 能 够 根据 各 行 各 业 用 户 的 反馈 迅速 进行 优化 
的 优点 。 但 是 ， 单 单 依靠 将 软件 公开 给 大 家 使 用 是 无 法 得 到 大 量 反 


馈 的 。 


因此 ， 为 了 得 到 大 量 的 反馈 ， 笔 者 经 常会 开展 所 谓 的 宣传 活动 ， 并 
奔波 于 各 种 开发 者 云集 的 技术 大 会 和 研讨 会 ， 努 力 回 更 多 的 人 介绍 
Groonga 的 代码 库 。 不 仅 如 此 ， 笔 者 还 会 走访 代码 库 的 使 用 者 ， 询 
问 他 们 对 哪些 地 方 不 满意 ， 并 根据 这 些 反 馈 进 行 改进 。 


这 些 实 实在 在 的 努力 并 没有 白费 ，Groonga 正在 逐渐 成 为 被 开发 者 
们 广泛 使 用 的 软件 。 














7-3 ”实现 出 考虑 到 用 户 意 图 的 搜索 引 舒 


在 运 维 使 用 了 搜索 引 敬 的 服务 时 ， 往 往 会 遇 到 始 料 未 及 的 腑 烦 。 有 时 还 
会 接 到 诸如 “检索 速度 太 慢 了 ”检索 不 出 结果 ”“ 太 难 用 了 ?等 来 自用 户 的 
负面 反馈 。 搜 索引 擎 不 能 仅仅 是 速度 快 ， 还 需要 考虑 到 用 户 的 意图 。 因 
此 ， 我 们 的 目标 是 开发 出 既 能 检索 又 好 用 的 搜索 引擎 。 本 节 中 我 们 就 基 
人 
I 努力 吧 。 


引入 集 用 词 


Se 0 
词 构成 。 


例如 ， 如 果 用 “的 “是 ”这 样 的 单词 对 中 文 网 页 进行 检索 ， 那 么 大 多 数 网 
页 都 会 成 为 检索 结果 。 所 谓 检 索 ， 束 是 为 了 从 大 量 信息 中 提取 出 自己 感 
兴趣 的 信息 而 进行 的 操作 ， 因 此 可 以 认为 那些 会 产生 大 量 检 索 结 果 的 单 
词 都 是 些 “ 提 取信 息 能 力 很 差 * 的 单词 。 对 于 这 些 单词 而 言 ， 其 倒 排 列表 
目 然 会 很 长 ， 这 就 导致 了 在 存储 时 要 人 花费 大 量 的 存储 空间 ， 而 在 扫描 时 
又 要 消耗 大 量 的 CPU 资源 。 这 些 都 是 我 们 不 愿意 看 到 的 ， 因 此 需要 引 
入 停 用 词 的 机 制 来 避免 上 述 问题 。 


应 对 词 双 解析 的 错误 


有 些 词 系 解 析 器 会 在 事先 学 习 大 量 文档 后 ， 才 开始 进行 词 系 解析 。 对 于 
-篇 文 草 ， 先 由 人 对 其 进行 词素 解析 ， 然 后 再 由 机 强 拼 命 地 学 习 解 析 结 
果 。 在 这 个 过 程 中 ， 通 常会 用 报纸 中 的 新 闻 等 语法 生硬 的 文章 作为 正确 
的 数据 。 由 于 报纸 上 的 文章 都 是 用 标准 的 中 文书 写 的 ， 而 且 报纸 上 也 不 
太 可 能 刊登 一 些 语法 奇怪 的 文章， 所 以 只 学 习 了 这 类 文章 的 严肃 的 词素 
解析 器 会 面临 什么 样 的 下 场 呢 ?由 于 这 种 中 规 中 矩 的 解析 器 并 不 能 适应 
像 是 在 博客 或 微 博 上 常见 的 那 类 语法 随便 的 文章 ， 目 然 也 就 无 法 顺利 地 
解析 这 种 文 草 了 。 

那么 ， 接 下 来 束 让 我 们 看 一 下 应 该 如 何 应 对 词素 解析 的 错误 。 方 法 之 一 
就 是 让 词素 解析 器 重新 学 习 由 这 类 语法 不 规范 的 文章 构成 的 文档 ， 以 成 
为 适应 这 类 文档 的 词素 解析 器 。 也 束 是 说 ， 要 将 社会 上 各 种 风格 的 中 文 









































文章 ， 也 包括 那些 虽然 语法 不 正确 ， 但 却 会 经 常 使 用 的 中 文 ， 都 教 给 中 
规 中 矩 的 解析 器 。 这 就 好 像 是 让 京剧 大 师 唱 流行 歌曲 一 样 。 当 然 ， 在 学 
站 











另外 ， 还 有 的 词素 解析 器 可 以 返回 多 个 帝 有 得 分 的 候选 解析 结束。 与 使 
用 只 返回 工 条 解析 结果 的 词素 解析 器 相 比 ， 使 用 这 样 的 词 系 解 析 器 时 ， 
只 要 对 所 有 能 划分 出 单词 边界 的 得 分 较 高 的 模式 都 提取 一 遍 词 元 ， 并 在 
构建 倒 排 索引 时 将 这 些 词 元 全 都 用 上 的 话 ， 就 可 以 提升 检索 的 正确 率 。 


下 
上 条 句 错误 
以 “乒乓 球 担 卖 完 了 ”这 句 话 为 例 ， 可 以 有 如 下 两 种 解读 方法 。 


乒乓 球拍 / 卖 / 完 了 
乒乓 球 / 担 卖 / 完 了 


像 这 种 可 以 有 多 种 解读 方法 的 句子 束 是 “会 出 现 断 句 错 误 的 句子 ”。 
这 样 的 句子 从 根本 上 融 难 以 通过 词素 解析 正确 地 分 割 出 词 元 。 对 于 
这 类 句子 ， 就 连 人 们 都 不 能 作出 统一 的 解释 ， 更 何况 是 机 器 了 ， 不 
能 进行 正确 地 分 割 也 惑 是 理所当然 的 。 


处 理 全 角 字 符 和 半角 字符 

如 果 用 全 角 字 符 和 半角 字符 检索 出 的 结果 不 一 样 ， 那 么 大 多 数 用 户 都 会 
觉得 这 样 的 系统 很 难 用 。 因 此 ， 我 们 需要 使 全 角 字 符 和 半角 字符 的 检索 
结果 保持 一 致 。 

“虽然 表示 字符 的 编码 不 同 ， 但 是 字符 本 身 却 是 相同 的 ” 为 了 达到 这 个 
效果 ， 我 们 需要 对 字符 进行 某 种 归 一 化 处 理 。Unicode 字符 编码 标准 定 
义 了 如 下 4 种 被 称 为 *Unicode 归 一 化 ”的 文本 归 一 化 处 理 过 程 。 


e。 NFD 





























e NEC 


e。 NFKD 


e。 NFKC 


其 中 NF 是 Normalization Form 的 缩写 ， 即 归 一 化 形式 ; D 是 
Decomposition 的 缩写 ， 即 分 解 ，C 是 Composition 的 缩写 ， 即 合成 ; K 
代表 Compatibility， 即 互 换 性 。 


“K 不 是 缩写 啊 ”， 也 许 会 有 人 产生 这 样 的 疑问 ， 其 实 这 是 由 于 如 果 还 用 
C 表示 Compatibility 的 话 就 会 和 代表 Composition 的 C 发 生 冲 突 ， 所 以 
这 里 用 K 代替 了 C。 


这 些 都 是 特性 不 同 的 归 一 化 形式 ， 在 全 文 搜索 上 使 用 NEFKC 即 可 达到 较 
好 的 效果 。 在 NFKC 中 ， 我 们 首先 要 将 构成 字符 串 的 字符 从 字符 串 中 一 
个 个 地 分 解 出 来 。 然 后 ， 在 构成 字符 串 的 字符 中 ， 我 们 还 要 对 那些 有 如 
全 角 、 半 和 角 以 及 简体 、 繁 体 等 多 种 表现 形式 的 字符 归 一 化 为 特定 的 形 
式 。 如 果 是 英文 字符 就 归 一 化 为 半角 字符 ， 如 果 是 汉字 惑 归 一 化 为 简体 
字 。 最 后 我 们 还 要 将 分 解 后 的 一 个 个 字符 组 合 到 一 起 。 


在 各 种 编程 语言 中 ， 有 些 已 经 以 标准 组 件 的 形式 提供 了 NFKC 的 代码 
库 。 而 且 ，IBM 还 引领 开发 了 用 于 处 理 Unicode 的 代码 库 ICU3。 如 果 
诸位 使 用 的 编程 语言 中 没有 集成 这 样 的 组 件 ， 那 么 可 以 借助 语言 绑 定 技 
术 (Language Binding) 实现 从 各 种 编程 语言 中 调用 ICU。 























3ICU 的 官方 网 站 为 http://site.icu-project.org/。 
对 查询 进行 归 一 化 


由 于 碍 询 是 由 人 输入 的 ， 所 以 在 输入 的 内 容 中 免不了 会 有 偶 赤 。 因 此 ， 
| 时 对 字符 串 进行 归 一 化 那样 ， 对 所 有 的 查询 也 进 
行 归 一 化 。 


留意 布尔 检索 的 解析 过 程 


在 Web 检索 中 ， 用 户 有 时 会 输入 很 复杂 的 检索 表达 式 。 例 如 ， 有 时 要 
排除 含有 特定 关键 词 的 文档 ， 有 时 是 已 知 多 个 关键 词 ， 需 要 但 找 至 少 包 
含 其 中 任意 一 个 的 文档 。 这 时 ， 很 多 搜索 引擎 都 支持 用 类 似 “- 检索 

词 * 的 语法 指定 前 一 种 条 件 ， 用 类 似 “ 检 索 词 1 OR 检索 词 2 的 语法 指定 
后 一 种 条 件 。 不 仅 如 此 ， 为 了 能 改变 这 些 检索 条 件 的 应 用 顺 友 或 是 对 其 
分 组 ， 有 的 搜索 引擎 还 文 持 在 碍 询 中 使 用 括号 ， 如 "搜索 引擎 -(Google 





OR Yahoo)”。 其 实 ， 只 要 认真 一 些 ， 这 些 功能 实现 起 来 并 没有 太 大 的 难 
度 。 无 非 是 先 对 俘 询 进行 语法 解析 ， 然 后 再 按 顺 序 调用 相应 的 处 理 过 


程 。 


但 是 ， 大 多 数 搜索 引擎 都 不 允许 查询 中 只 包含 要 排除 的 检索 词 。 例 如 ， 
可 以 试 试 在 Google 上 检索 “-Google”。 该 查询 的 含义 是 ， 从 所 有 的 文档 
中 检索 出 不 包含 Google 这 个 词 的 文档 。 从 含义 本 喘 来 看 并 没有 什么 不 
合理 的 地 方 ， 可 实际 结果 却 是 找 不 到 任何 检索 结果 。 这 是 因为 这 样 的 伍 
询 不 仅 会 因 检索 结果 过 多 导致 实用 性 下 降 ， 还 会 引用 过 高 的 负载 。 如 果 
要 目 己 制作 搜索 引擎 ， 一 般 也 可 以 参考 Google 的 做 法 ， 即 对 于 只 含 
要 排除 掉 的 检索 词 的 得 询 ， 不 返回 任何 结果 即 可 。 


对 于 使 用 了 OR 的 查询 ， 也 有 值得 注意 的 地 方 。 通 常 在 使 用 AND 检索 
时 ， 随 着 检索 词 的 增多 ， 检 索 出 的 结果 会 逐渐 变 少 。 但 是 与 此 相反 ， 使 
用 OR 检索 却 能 使 检索 结果 越 来 越 多 。 而 且 ， 用 户 在 进行 OR 检索 时 都 
拥有 很 强烈 的 < 想 无 一 遗漏 地 检索 ”的 愿望 ， 所 以 他 们 用 OR 连接 起 来 的 
词语 数量 也 会 变 得 越 来 越 多 。 另 外 ， 在 使 用 Web 检索 系统 对 特定 公司 
名 或 商品 进行 定点 观测 时 ， 用 户 还 会 定期 地 执行 由 OR 连接 起 来 的 多 个 
词语 的 查询 。 因 此 ， 对 于 OR 检索 ， 我 们 应 该 通过 限制 能 够 连接 的 单词 
数 来 避免 出 现 过 多 的 检索 结果 ， 从 而 减轻 检索 处 理 的 负载 。 


通过 词 系 解 析 需 适当 地 解析 查询 


通过 词素 解析 将 作为 检索 对 象 的 文档 分 割 成 词 元 时 ， 同 样 也 需要 通过 词 
素 解析 将 查询 分 割 成 词 元 。 


为 了 正确 地 解析 出 句子 中 的 所 有 词素 ， 大 多 数 的 词素 解析 器 都 是 经 过 调 
整 的 。 但 是 ， 用 户 很 少 以 句子 的 形式 给 出 查询 ， 多 数 情况 都 是 只 给 出 了 
0 


对 错误 的 输入 进行 修正 


由 于 查询 是 由 人 来 输入 的 ， 所 以 出 现 一 些 细 小 的 错误 也 是 在 所 难免 的 。 
例如 ， 将 拼音 转换 成 汉字 时 选 错 了 汉字 ， 导 致 输入 了 同音 异 义 的 词语 ， 
或 者 扎 记 输入 了 一 些 字符 ， 等 等 。 如 果 即 便 输 入 了 错误 的 查询 ， 也 能 
确 检索 的 话 ， 用 户 就 会 感到 很 高 兴 。 
































实现 输入 错误 修正 的 方法 之 一 是 事先 准备 好 词典 。 词 典 中 预先 记录 了 一 
些 可 预见 的 常见 错误 所 对 应 的 正确 写法 。 以 数学 家 的 名 字 为 例 ， 如 条 用 
尸 输入 的 是 “傅立叶 ”就 将 其 修正 为 “ 傅 里 叶 ”， 如 果 用 户 输 入 的 是 “号 尔 
科 夫 ”就 将 其 修正 为 “号 尔 可 夫 ” 等 。 


虽然 这 样 的 词典 也 可 以 由 人 工 来 完成 ， 但 是 持续 维护 这 样 庞大 的 词典 却 
征 件 非 常 旷 烦 的 事 。 其 实 纺 香 词典 这 种 工作 也 可 以 用 机 械 的 方式 来 解 

决 。 例 如 ， 我 们 只 要 解析 检索 出 的 结果 ， 束 可 以 从 中 提取 出 用 户 连 续 输 
入 的 关键 词 ， 以 此 为 依据 ， 应 该 就 可 以 提取 出 典型 的 错误 示例 了 。 


作为 实现 上 述 方案 的 方法 之 一 ， 我 们 可 以 利用 日 志 。 日 志 中 包含 了 用 户 
的 识别 信息 、 其 使 用 的 得 询 以 及 检索 时 间 。 例 如 ， 在 比较 两 个 得 询 时 ， 
如 果 它 们 的 检索 时 间 比 菏 个 预定 的 时 间 还 要 短 ， 并 且 又 很 相似 ， 那 么 束 
可 以 推测 这 是 用 户 自 己 修 正 了 错误 的 查询 。 在 由 此 产生 的 众多 候选 查询 
中 ， 通 过 将 大 量 用 户 都 进行 过 同样 修正 的 词语 收录 进 词 典 ， 束 可 以 导出 
一 份 能 够 自动 进行 错误 修正 的 候选 查询 了 。 


输入 补 全 


很 多 现代 的 搜索 引擎 都 提供 了 得 询 补 全 的 功能 。 例 如 ， 我 们 只 要 输入 得 
人 
1H) 。 


要 想 实现 这 个 功能 ， 只 需要 为 经 常 检索 的 字符 串 创建 能 够 进行 前 方 一 致 

检索 的 结构 即 可 。 以 “ 倒 排 索引 ?为 例 ， 我 们 就 需要 提前 创建 菜 种 结构 ， 

和 
索引 ”。 


用 于 存储 字符 串 集合 的 数据 结构 “字典 树 ”， 是 一 种 能 够 快速 进行 前 方 一 
致 检索 的 结构 。 例 如 ， 在 存储 

由 | ava2“j avascript”“perl”“php”“python”“r”“ruby” 构 成 的 条 
符 串 集合 时 ， 字 和 典 树 会 使 用 如 图 7-2 所 示 的 结构 保存 信息 。 





























javascript 





图 7-2 由 编程 语言 的 名 字 构 成 的 单词 查找 树 


从 图 7-2 可 以 看 出 ， 如 果 几 个 字符 串 以 相同 的 字符 开头 ， 那 么 单词 查找 
树 就 会 用 公共 的 结 反 来 表示 这 个 字符 。 我 们 只 要 用 这 个 结构 来 保存 数 
据 ， 就 可 以 轻松 地 获取 前 方 一 致 的 字符 串 的 列表 了 。 

在 实际 应 用 中 ， 设 计 更 加 巧妙 的 基数 树 (Patricia Tree》 和 后 级 数组 


(Suffix Array) 等 也 是 常用 的 数据 结构 。 作 为 这 些 数 据 结 构 的 实现 ， 只 
要 使 用 Darts4、Darts-clone?、Txs 等 优秀 的 代码 库 ， 就 可 以 快速 地 进行 





前 方 一 致 检索 了 。 





4 工 蔷 拓 提 供 的 代码 库 darts。http://chasen.org/~takwsoftware/darts/ 

















5 矢 田 晋 提供 的 、 具 有 和 Darts 相似 接口 的 代码 库 。http:Wcode.google.comy/p/darts-clone/ 



































6 网 野 原 大 辅 提供 的 代码 库 。http://code.google.com/p/tx-trie/ 








为 外 ， 在 将 补 全 了 的 候选 字符 串 提 示 给 用 户 时 ， 最 好 先 按 照 菜 种 有 意义 
的 标准 对 其 排序 。 例 如 ， 可 以 按照 检索 频率 对 候选 结果 排序 ， 这 样 就 能 
让 用 户 更 快 地 选择 到 最 近 被 多 次 检索 过 的 查询 了 。 


建议 用 户 检 索 相 关 的 关键 词 


诸位 是 舍 都 过 到 过 检索 结果 过 多 的 情况 呢 ? 明 到 这 种 情况 时 ， 用 户 经 党 
会 为 接 下 来 该 用 哪个 得 询 来 筛选 检索 结 采 而 感到 困惑 。 


于 是 ， 在 Google 中 就 有 一 个 显示 “相关 的 检索 关键 词 ?的 功能 。 只 要 单 
击 列 出 的 关键 词 ， 就 可 以 得 到 经 过 了 更 加 严格 筛选 的 检索 结果 。 


我 们 可 以 在 解析 用 户 输入 的 查询 时 对 其 进行 统计 ， 然 后 使 用 由 经 常 同时 
检索 的 多 个 查询 构成 的 集合 来 实现 该 功能 。 这 样 的 话 ， 在 搜索 引擎 接收 
到 查询 后 ， 就 可 以 提示 用 户 有 哪些 查询 会 经 常 和 这 个 查询 一 起 检索 了 。 

















7-4 _ 收集、 提取 文 档 时 的 要 扣 
制作 谎 虫 时 的 处 理 要 点 


虽然 我 们 并 没有 在 wiser 中 实现 爬虫 的 功能 ， 但 要 想 实 现 Web 检索 系 
统 ， 疏 虫 的 制作 必 不 可 少 。 下 面 我 们 惑 来 看 一 下 在 制作 爬虫 时 应 该 注意 
哪些 细节 。 


1 应 该 如 何 调整 爬虫 的 访问 间隔 时 间 


疏 虫 会 机 械 地 在 网 络 上 疏 取 数据 ， 从 而 给 Web 服务 器 带 来 巨大 的 访问 
量 。 这 种 行为 对 于 Web 服务 器 的 管理 员 来 说 是 很 头痛 的 。 因 为 当 一 部 
分 服务 器 被 大 量 访问 时 ，Web 服务 器 的 大 部 分 计算 资源 都 在 应 对 拒 虫 的 
访问 。 


对 于 息 虫 而 言 ， 在 很 短 的 时 间 间 隅 内 频繁 地 访问 一 部 分 Web 服务 器 也 
没有 什么 好 处 ， 因 为 网 页 的 更 新 往往 没有 那么 频繁 ， 一 次 义 一 次 地 获取 
尚未 更 新 的 网 页 也 只 是 在 做 无 用 功 。 


为 了 解决 这 个 问题 ， 很 多 爬虫 都 会 先 将 上 一 次 访问 网 页 的 时 间 记 录 下 

来 ， 并 具备 一 个 先 判 断 再 爬 取 的 机 制 。 只 有 从 上 一 次 访问 该 网 页 的 时 间 
算 起 ， 已 经过 了 足够 长 的 时 间 时 ， 才 会 再 次 爬 取 同 一 个 网 页 。 这 里 所 次 
的 “是 够 长 的 时 间 ” 到 底 是 多 长 ， 要 根据 网 站 的 更 新 频率 等 来 推测 ， 并 且 
要 对 各 个 网 站 分 别 进 行 设 定 。 只 要 具备 了 这 种 机 制 ， 扑 虫 就 不 会 再 对 同 
一 个 网 页 频繁 地 扑 取 了 。 

另 一 方面 ， 如 果 将 爬 取 的 间隔 时 间 设 得 过 长 ， 就 有 可 能 无 法 获取 最 新 的 
0 
奈 间 : 调整 。 


另外 也 有 一 些 高 级 的 肘 虫 ， 可 以 根据 网 页 的 更 新 周期 动态 地 调整 爬 取 的 
时 间 间 隔 。 


1 反 垃 圾 策略 
有 一 些 网 页 中 会 包含 重复 内 容 。 例 如 ， 由 新 闻 网 站 发 布 的 报道 除了 在 新 




















闻 网 站 本 喘 刊 登 ， 还 会 被 其 他 合作 机 构 的 网 站 转载 。 之 所 以 这 样 做 ， 是 
因为 新 闻 网 站 可 以 从 转载 的 网 站 那里 获 蔓 ， 而 转载 的 网 站 则 可 以 通过 刊 
登 新 闻 来 吸引 用 户 ， 从 而 实现 了 双 屎 。 然 而 ， 这 样 做 会 引发 一 个 “在 不 
同 的 URL 上 刊登 了 同一 条 新 闻 ” 的 问题 。 不 仅 如 此 ， 出 于 各 种 各 样 的 原 
因 《 比 如 垃圾 站 点 ) ， 还 存在 着 很 多 这 种 内 容重 复 的 网 页 。 


可 是 ， 避 免 拒 取 这 些 网 页 又 是 很 困难 的 。 因 为 对 于 完全 相同 的 文章 ， 必 
须要 判断 出 其 中 哪 一 篇 才 是 最 先 发 表 的 。 而 又 由 于 网 页 的 发 表 没有 登记 
| 


作为 判断 垃圾 站 操 的 方法 之 一 ， 我 们 可 以 考虑 基于 网 站 的 “可 疑 程度 ”来 
判断 。 例 如 ， 由 于 垃圾 站 点 的 目的 是 放置 指向 外 部 网 页 的 链接 以 及 让 用 
户 点 击 广告 ， 所 以 环 圾 站 点 要 么 是 链接 数 远 远 高 于 文档 数 ， 要 么 是 含有 
过 多 的 广告 。 我 们 可 以 将 这 样 的 网 页 作为 “可 疑 * 的 网 页 ， 并 对 其 采取 降 
低 息 忠 仆 取 的 优先 级 等 对 策 ， 这 也 不 失 为 是 一 种 好 的 方法 。 


在 实际 的 服务 中 ， 有 时 也 还 会 采用 不 同 的 处 理 方法 。 例 如 ， 对 于 检索 结 
果 ， 通 过 获取 用 户 实际 上 有 没有 点 击 来 计算 每 个 网 页 的 点 击 率 ， 然 后 对 
于 点 击 率 较 低 的 网 站 降低 爬虫 爬 取 的 优先 级 ， 这 样 就 可 以 利用 人 们 的 判 
肠 能 为 使 肘 虫 疏 取 的 优先 级 达到 最 优 状 态 了 。 


进行 过 上 述 判断 后 ， 我 们 还 可 以 采取 更 进一步 的 优化 措施 ， 例 如 不 再 故 
取 在 可 疑 网 页 较 多 的 域名 下 发 布 的 网 页 。 


我 们 最 终 需 要 的 是 将 上 述 几 种 处 理 方法 结合 起 来 ， 以 创造 出 一 种 误 检 率 
低 且 能 避免 肘 取 垃圾 站 氮 的 朴 虫 。 由 于 垃圾 站 点 每 天 都 在 发 展 进 化 ， 上 所 
以 应 对 的 策略 也 必须 不 断 地 发 展 进化 。 不 过 ， 凡 事 痢 要 有 个 限度 ， 过 于 
严格 的 对 策反 而 会 将 本 来 对 用 尸 有 用 的 网 站 也 排除 在 爬 取 对 象 之 外 。 


1 对 付 和 恶意 的 SEO 















































SEO 〈Search Engine Optimization ) 的 意思 是 “搜索 引擎 优化 ”， 是 一 种 通 
0 





对 于 息 虫 而 言 ，SEO 本 喘 既 有 好 的 影响 ， 也 有 不 利 的 影响 。 由 于 SEO 
就 是 “针对 搜索 引擎 完善 内 容 *， 所 以 这 一 扣 可 以 为 息 虫 带 来 一 些 提示 。 





例如 ， 可 以 修正 HTML 语法 上 的 错误 ， 像 <a rel="nofollow"> 这 样 ， 将 
a 标签 的 rel 属性 的 值 设 为 nofollow， 表 示 扑 虫 可 以 不 必 顺 着 该 链接 扑 
取 。 


为 一 方面 ， 在 SEO 中 也 有 对 扑 虫 不 利 的 影响 。 一 个 鼎 具 代表 性 的 例子 
是 创建 者 在 网 页 中 生成 了 大 量 的 链接 。 当 爬虫 遇 到 含有 大 量 链接 的 网 页 
时 ， 疏 取 所 有 链接 所 指 同 的 目标 网 页 可 能 会 大 幅度 地 加 剧 爬 虫 的 负载 。 
从 保护 爬虫 的 观点 来 看 ， 处 理 这 种 含有 大 量 链接 的 SEO 还 是 比较 简单 
的 。 只 需要 限制 从 1 工 个 网 页 开始 爬虫 所 能 爬 取 的 链接 数 即 可 。 早 先进 行 
了 这 类 SEO 的 网 页 会 受到 Web 检索 系统 的 惩 姑 ， 或 是 在 检索 结 末 中 的 
排名 被 降低 ， 或 是 将 其 从 检索 结果 中 删除 ， 但 是 最 近 这 样 的 您 罚 却 很 少 
见 了 。 除 此 以 外 ， 还 有 其 他 的 处 理 方法 。 例 如 ， 和 暂且 将 那些 存储 着 含有 
大 量 链接 的 网 页 的 Web 服务 器 作为 垃圾 主机 记录 在 黑 名 单 里 ， 以 后 就 
可 以 不 再 对 其 进行 爬 取 了 。 


1 处 理 通过 客户 端 变 更 内 容 的 网 页 


早先 的 网 页 都 是 静态 网 页 。 也 就 是 说 ， 那 时 的 浏览 器 仅仅 是 一 种 按照 获 
取 的 HIML 文件 进行 泻 染 的 程序 。 但 是 ， 如 今 却 存在 大 量 能 够 通过 客 
户 端的 处 理 ， 使 用 JavaScript 和 Flash 等 技术 动态 变更 内 容 的 网 页 。 


要 想 直 接 正 确 地 疏 取 这 些 网 页 ， 还 是 比较 困难 的 。 虽 然 也 有 些 爬 虫 会 解 
析 Flash 的 内 容 ， 或 通过 执行 简单 的 JavaScript 来 抽取 用 于 检索 的 文 
本 。 但 是 为 了 执行 这 样 的 处 理 ， 需 要 一 种 和 实际 的 浏览 器 具备 相同 功能 
的 程序 ， 而 这 束 需 要 相当 大 的 投入 了 。 就 算 存 在 能 进行 这 类 处 理 的 程 
序 ， 执 行 起 来 也 需要 大 量 的 计算 资源 和 时 间 。 而 且 ， 这 样 的 程序 还 必须 
要 能 够 处 理 不 怀 好 意 的 网 页 ， 如 那些 在 Flash 和 JavaScript 中 执行 了 死 
循环 等 的 网 页 。 


但 是 ， 最 近 也 有 很 多 动态 网 页 为 了 增加 来 目 搜 索引 擎 的 流量 ， 采 取 了 一 
些 有 利于 怜 虫 的 举措 。 例 如 ， 通 过 RSS 来 7 发 布 网 页 中 的 信息 ee 
便 爬 虫 不 去 直接 解析 动态 网 页 ， 人 样 能 获取 到 有 关 网 页 的 信息 











7RSS (RDF Site Summary、Rich Site Summary、Really Simple Syndication 等 的 缩写 ) 是 一 种 用 
网 站 更 新 信息 的 文档 格式 。 虽 然 版 本 不 同 会 导致 该 缩写 代表 的 单词 不 同 ， 位 是 其 本 质 都 
一 种 用 于 以 计算 机 易于 处 理 的 形式 提供 网 站 更 新 信息 的 机 制 。 


1 估算 爬虫 所 需 的 必要 的 资源 和 时 间 

























































































对 诸位 来 说 ， 要 不 取 世界 上 的 所 有 网 页 并 不 现实 ， 因 此 上 自然 要 缩小 爬 取 
对 象 的 范围 。 此 时 ， 非 种 重要 的 一 件 事 是 预 估 作 为 肘 取 对 象 的 网 页 有 多 
少 ， 以 及 疏 取 这 些 网 页 需要 花费 多 长 时 间 。 


Google 在 2008 年 的 报告 中 指出 ， 全 世界 存在 着 超过 1 万 亿 的 网 页 。 假 
设 获 取 1 个 网 页 需要 花费 200ms， 那 么 收集 1 万 亿 个 网 页 的 数据 ， 就 需 
要 花费 大 约 6341 年 。 即 使 使 用 100 台 计 算 机 ， 也 需要 花费 63 年 之 久 。 
另外 ， 假 设 一 个 网 页 的 大 小 是 64KB， 那 么 要 存储 1 万 亿 个 网 页 的 数 
据 ， 就 需要 约 60PB 的 存储 空间 。 都 不 需要 实际 地 去 操作 ， 也 能 知道 这 
是 不 可 能 实现 的 。 


在 启动 息 虫 前 ， 请 诸位 也 尝试 着 估计 一 下 需要 多 少 资 源 和 时 间 。 这 对 于 
设计 那些 会 利用 到 怜 虫 朴 取 数 据 的 服务 来 说 是 至 关 重 要 的 。 

在 提取 文本 时 需要 处 理 的 要 点 

在 提取 文本 时 ， 也 有 几 个 需要 处 理 的 要 点 。 

1 对 应 各 种 各 样 的 文件 格式 

除了 HTML 和 XML 等 格式 以 外 ， 世 界 上 还 有 其 他 各 种 各 样 的 文件 格 
式 。 例 如 ， 在 诸位 所 就 职 的 公司 的 文件 服务 器 上 ， 束 应 该 会 有 Word、 
Excel、PowerPoint 等 堆积 如 山 的 Microsoft Office 文件 。 在 大 多 数 情 况 
下 ， 由 于 这 些 文件 都 是 用 私有 的 文件 格式 记录 的 ， 所 以 为 了 使 其 能 够 检 
索 ， 就 需要 先 理解 这 些 文 件 格式 的 细节 ， 然 后 再 提取 内 容 。 

1 正确 地 判断 字符 编码 

由 于 Web 上 的 文件 是 用 各 种 各 样 的 编码 编写 的 ， 所 以 要 想 提 取 文 件 的 
内 容 ， 还 需要 正确 地 判断 其 编码 。 在 中 文中 ， 和 常见 的 字符 编码 有 
GB2312、GBK 和 UTF-8 等 。 只 要 有 了 一 定量 的 文 挡 ， 就 可 以 推测 出 某 
个 文档 使 用 的 是 哪 种 字符 编码 了 。 


在 诸位 所 使 用 的 编程 语言 中 ， 也 有 如 下 所 示 的 能 够 目 动 判断 字符 编码 的 
函数 或 模块 。 


。PHP: mb_detect_encoding 函数 























Ruby: rchardetl9 模块 


。 Java: juniversalchardet 项 目 
。 Python: chardet 模块 
。C 语言 : universalchardet 


比 起 目 己 应 对 所 有 处 理 ， 使 用 这 些 函 数 或 模块 ， 可 以 以 更 高 的 精度 来 判 
晰 字符 编码 。 


另外 ， 对 于 网 页 《Web 上 的 文件 ) 来 说 ， 有 时 HTTP 啊 应 头 中 的 
Content-Type 字段 会 标识 出 该 页 面 〈 文 件 ) 的 字符 编码 。 我 们 也 可 以 将 
其 作为 提示 来 判断 页 面 〈 文 件 ) 的 字符 编码 。 





A-1 深度 话题 
近 几 年 的 压缩 方法 
近 几 年 ， 研 究 人 员 不 断 提 出 了 若干 种 新 的 编码 方法 。 新 的 编码 方法 不 但 


能 达到 较 高 的 压缩 率 ， 还 能 实现 快速 解码 。 在 本 节 ， 我 们 将 介绍 其 中 的 
两 种 编码 方法 Simple9 和 PForDelta。 





1 Simple9 

Simple9〈 以 下 简称 为 S9) 是 一 种 通过 将 尽 可 能 多 的 整数 存储 到 32 比特 
中 来 实现 压缩 的 编码 方法 。S9 会 将 32 比特 的 空间 分 割 成 前 4 比特 (高 
4 位 ) 和 后 28 比特 〈 低 28 位 ) 两 部 分 ， 前 4 比特 用 于 存储 表示 整数 存 
储 模式 的 状态 编号 ， 后 28 比特 用 于 存储 基于 此 存储 模式 的 整数 。 

在 整数 存储 模式 中 ， 预 先 定 义 了 如 下 9 种 模式 。 


。28 比特 x1 个 





。14 比特 x2 个 
。9 比特 x3 个 
。7 比特 x4 个 
。5 比特 x5 个 
。 4 比特 x7 个 
。3 比特 x9 个 
。2 比特 x 14 个 


。1 比特 x 28 个 


例如 ， 对 于 像 [L，3，8，2，16，9，5] 这 样 的 7 个 整数 都 不 大 于 16 的 
整数 序列 ， 通 过 应 用 “4 比特 x7 个 ”的 存储 模式 ， 即 可 用 32 比特 来 表 
人 No 


而 在 解码 时 ， 则 要 先 看 一 下 待 解码 数据 的 开头 部 分 ， 以 判断 其 所 应 用 的 
存储 模式 ， 从 而 应 用 针对 各 存储 模式 预先 便 编码 好 的 解码 函数 进行 解 
人 码 。 通 过 预先 将 位 操作 进行 硬 编码 ， 即 可 在 对 定 长 比特 进行 解码 时 避免 
分 文 操作 ， 从 而 提升 解码 操作 的 速度 (由 于 程序 中 没有 分 文 操 作 ， 所 以 
处 理 器 的 流水 线 处 理 (Pipleline) 并 不 会 发 生 阻 塞 (Stall) ) 。 


1 PForDelta 


与 S9 一 样 ，PForDeltal 也 是 一 种 通过 将 整数 序列 压 入 定 长 比特 数组 来 
实现 压缩 的 编码 方法 。 但 是 ，PForDelta 在 压 入 大 量 整数 时 的 处 理 与 S9 
有 所 不 同 。 


1 编码 方法 PForDelta 最 早 由 Zukowski 等 人 (参考 文献 5) 提 出， 之 后 又 由 Yan 等 人 加 以 优 
化 。 本 书 所 讲解 的 是 经 过 优化 的 PForDelta。 


PForDelta 首先 会 将 整数 序列 分 割 成 右 干 个 区 块 ， 每 个 区 块 中 可 存放 32 
的 倍数 〈 这 里 假设 是 128) 个 整数 。 接 着 要 对 各 个 区 块 分 别 求 出 一 个 能 
够 容纳 下 该 区 块 中 90% 的 整数 的 比特 宽度 b。 


接 下 来 ， 我 们 要 将 这 90% 的 整数 填 入 “b 比特 x128 个 ”的 数组 (以 下 称 
为 数组 A) 中 。 当 然 ， 由 于 用 b 个 比特 无 法 存储 剩余 10% 的 整数 ， 所 

以 还 要 将 这 些 整 数 当 作 特殊 数值 来 处 理 。 对 于 要 特殊 处 理 的 数值 ， 我 们 
只 将 其 最 后 的 b 个 比特 存储 到 数组 A 中 ， 而 将 其 前 面 的 比特 存储 到 另 

一 个 数组 (数组 B) 中 。 另 外 ， 还 要 再 用 另外 一 个 数组 〈 数 组 C) 来 存 
储 哪个 整数 需要 特殊 处 理 。 此 时 ， 我 们 可 以 使 用 S9 等 编码 方法 对 数组 
B 和 数组 C 进行 压缩 。 


用 PForDelta 进行 编码 的 示例 如 图 A-1 所 示 。 
































Be 2 生 光 | 网 
求 出 一 个 能 够 容纳 下 区 块 中 
90% 的 整数 的 比特 宽度 b 


OlLOMT O00O0 EVO... 
| ※ 为 了 便于 阅读 ， 


我 们 在 数字 间 加 上 了 “":" 
偏 移 量 了 
高 位 上 的 比特 人 


图 A-1 用 PForDelta 进行 编码 的 示例 


PForDelta 的 特点 是 解码 速度 极 快 。Zukowski 在 论文 中 介绍 的 解码 方法 
如 下 所 示 。 


代码 清单 、PForDelta 的 解码 方法 





int Decompress<ANY>( int n、int b， 
ANY * restrict output， 
void * restrict _ input， 

ANY * restrict exception, 
int *next exception ) 


int next、 code[n]、 cur = *next exception; 
UNPACK[b](code、 input、 n); /* bit-unpack the values */ 
/* LOOP1: decode regardless */ 
for(int i=6; i<n; i++) { 

output[i] = DECODE(code[i]); 


/* LOOP2: patch it up */ 

for(int i=1; cur < nj i++、 cur = next) { 
next = cur + output[cur] + 1; 
output[cur] = exception[-i]; 


*next exception = cur - n; 
return i; 


[L 


解码 由 2 个 循环 分 为 2 个 阶段 完成 。 在 第 1 个 循环 中 ， 要 从 bb 比特 的 定 
长 数组 中 将 各 个 整数 解码 。 而 在 第 2 个 循环 中 ， 要 将 高 位 上 的 比特 填补 
到 需要 特殊 处 理 的 整数 上 。 


由 于 第 1 个 循环 中 的 每 一 步 处 理 都 是 相互 独立 的 ， 所 以 编译 器 应 该 能 够 
对 其 进行 循环 展开 (Loop Unrolling) 和 循环 体 流 水 化 〈Loop 
Pipelining) 。 而 且 ， 由 于 循环 内 部 完全 避免 了 分 文 操 作 ， 上 所 以 处 理 器 上 
的 流水 线 处 理 也 可 以 高 效 地 执行 。 这 些 都 可 以 提高 PForDelta 的 解码 速 
度 *。 当 然 ， 使 用 1 个 循环 (1 个 阶段 〉 也 可 以 完成 解码 处 理 ， 但 是 由 
J 2 个 阶段 后 解码 速度 能 够 明显 提升 ， 所 以 还 是 使 用 了 2 个 循 









































?虽然 在 第 2 个 循环 的 处 理 中 会 发 生 数 据 冒 险 (Data Hazard) ， 但 是 由 于 要 填补 的 整数 并 不 
多 ， 所 以 并 不 会 引起 较 大 的 系统 开销 。 








1 关于 各 种 编码 方法 


在 参考 文献 6 中 ，Zhang 等 人 比较 了 各 种 倒 排 文件 的 编码 方法 (rice、 
variable-byte、S9 和 PForDelta〉。 观 察 比较 结果 之 后 ， 可 以 得 出 以 下 有 
关 压 缩 率 的 结论 。 


rice > PForDelta > S9 > variable-byte 〈 越 往 左 压缩 率 越 高 ) 
而 关于 解码 速度 ， 可 以 得 到 以 下 的 结论 。 
PForDelta > S9 > variable-byte > rice 〈 越 往 左 解码 速度 越 快 ) 


由 于 这 些 结论 很 大 程度 上 依赖 于 进行 实验 的 数据 集 ， 所 以 不 妨 只 把 它们 
当 作 是 参考 数据 。 而 且 ， 各 种 编码 方法 的 好 坏 未 必 能 够 通过 压缩 率 和 解 
码 速度 比较 出 来 。 例 如 ， 虽 然 variable-byte 编码 的 解码 速度 不 如 
PForDelta 和 S9， 但 是 variable-byte 却 拥有 易于 实现 、 可 进行 增 量 编码 
(Incremental Encoding) 的 优点 。 总 之 ， 我 们 应 该 在 彻底 了 解 各 种 编码 
方法 的 基础 上 ， 再 根据 搜索 引 敬 的 用 途 和 运行 搜索 引擎 的 硬件 性 能 ， 具 
体 问题 具体 分 析 地 选用 这 些 编码 方法 。 


动态 索引 构建 











在 1-7 小 节 中 我 们 曾经 讲 过 ， 在 构建 索引 的 方法 中 有 “静态 ”和 “动态 ”之 
分 ， 而 且 很 多 案例 都 需要 动态 的 索引 构建 。 动 态 索 引 构 建 是 一 种 一 边 使 
索引 结构 时 刻 保持 在 可 检索 的 状态 ， 一 边 构建 索引 的 方法 。 只 要 搜索 引 
擎 文 持 动态 索引 构建 ， 那 么 新 文档 一 添加 ， 该 文档 的 信息 就 会 立即 反映 
到 索引 上 。 也 惑 是 次 ， 索 引 会 时 刻 保持 在 最 新 的 状态 上 。 但 是 ， 为 了 使 
索引 时 刻 保持 在 最 新 且 可 检索 的 状态 上 ， 就 不 得 不 在 采种 程度 上 容忍 检 
人 

得 。 
在 本 节 ， 我 们 将 讲解 几 个 具有 代表 性 的 动态 索引 构建 方法 ， 并 观察 这 些 
方法 是 如 何 权 衡 动态 构建 和 高 速 检索 处 理 的 。 为 外 ， 关 于 这 种 动态 索引 
构建 的 讨论 一 直 以 来 都 是 以 磁盘 驱动 圳 为 二 级 存储 融 广 泛 展开 的 ， 所 以 
在 本 节 ， 我 们 还 以 磁盘 驱动 器 〈 以 下 简称 为 磁盘 ) 为 对 象 进行 讲解 。 
1 用 于 动态 索引 构建 的 基本 策略 
动态 索引 构建 的 基本 策略 如 下 所 示 。 

。 将 索引 分 成 内 存 上 的 索引 和 磁盘 上 的 索引 并 分 别管 理 

。 添加 文档 后 ， 优 先 更 新 内 存 上 的 索引 


。 只 有 当 内 存 上 的 索引 大 小 达到 了 《事先 设 定好 的 ) 内 存 容量 的 上 
限时 ， 才 将 其 整合 到 磁盘 上 的 索引 中 


动态 索引 构建 的 要 所在 于 如 何 整合 内 存 上 的 索引 和 磁盘 上 的 索引 。 下 面 
就 让 我 们 来 略微 深入 地 看 一 看 。 


1 整合 索引 
整合 索引 的 方法 大 体 上 可 以 分 为 如 下 两 种 。 


。 基 于 原 地 更 新 的 整合 (Inplace Index Maintenance) 























。 基 于 合并 的 整合 (Merge-based Index Maintenance) 


在 整合 时 ， 基 于 原 地 更 新 的 整合 是 一 种 通过 将 内 存 上 索引 的 倒 排 列表 添 
加 到 磁盘 上 索引 的 倒 排 列表 中 ， 以 尽 可 能 缩小 磁盘 上 索引 更 新 范围 的 集 
略 。 具 体 来 讲 就 是 ， 事 先 在 各 倒 排 列表 中 预 留 出 多 余 的 空间 ， 然 后 再 将 





内 存 上 索引 的 倒 排 项 存储 到 该 空间 中 。 当 预 留 出 的 空间 不 足 时 ， 就 将 该 
倒 排列 表 移 动 到 其 他 的 空间 。 


这 既是 广泛 应 用 于 数据 库 管 理 系统 (DBMS ) 的 数据 管理 方法 ， 也 是 以 
往 动 态 索 引 构建 的 主要 方法 。 但 是 ， 由 于 在 整合 处 理 中 要 对 磁盘 进行 大 
量 的 随机 访问 ， 所 以 近 几 年 以 磁盘 扫描 为 基础 的 基于 合并 的 整合 方法 渐 
渐 成 为 了 主流 。 


1 基于 合并 的 整合 


与 基于 原 地 更 新 的 整合 不 同 ， 基 于 合并 的 整合 方法 并 不 会 直接 更 新 磁盘 
上 的 索引 ， 而 是 会 对 磁盘 上 已 有 的 索引 和 内 存 上 的 索引 进行 合并 ， 并 将 
合并 后 的 索引 写 入 到 一 块 新 的 磁盘 空间 (一 个 新 的 文件 ) 中 。 下 面 我 们 
将 介绍 3 种 在 基于 合并 的 整合 方法 中 具有 代表 性 的 策略 。 


。 再 合并 策略 


再 合并 〈Remerge/Immediate Merge) 策略 会 通过 不 断 地 人 合并， 始终 
在 磁盘 上 保留 1 个 索引 。 也 就 是 说 ， 当 内 存 上 索引 的 大 小 达到 了 茶 
个 立 值 时 ， 束 需要 将 其 和 磁盘 上 的 索引 合并 以 生成 新 的 索引 生成 
a 还 要 将 作为 合并 源 的 磁盘 上 的 索引 和 内 存 上 的 索 
引 删 除 掉 ) 。 


在 这 种 策略 中 ， 获 取 1 个 倒 排列 表 所 需 的 磁盘 寻 道 次 数 为 1 次 ， 但 
是 每 次 合并 都 要 对 磁盘 上 的 索引 进行 全 扫描 。 


设 为 要 构建 的 倒 排 项 的 总 数 '，b 为 内 存 上 能 够 存储 的 倒 排 项 的 个 
数 ， 那 么 对 于 n 个 倒 排 项 就 要 进行 wb 次 的 合并 ， 因 此 在 构建 时 ， 
磁盘 操作 的 时 间 复 杂 度 为 O(n*%/b)。 

不 合并 策略 

不 合并 (No Merge) 策略 正如 其 名 ， 是 一 种 完全 不 进行 合并 的 策 
略 。 当 内 存 上 的 索引 大 小 达到 了 某 个 阐 值 时 ， 就 将 该 内 存 上 的 索引 
写 入 到 一 个 新 的 磁盘 文件 中 。 


由 于 这 种 生 略 并 不 合并 索引 ， 上 所 以 虽然 索引 构建 的 性 能 较 高 ， 但 是 
磁盘 上 的 索引 却 补 分散 到 了 多 个 文件 中 ， 这 就 会 导致 在 获取 倒 排列 

















表 时 ， 破 盘 寻 道 的 次 数 会 与 索引 的 数量 成 比例 地 增长 。 由 于 构建 mn 
个 倒 排 项 要 进行 1 次 合并 ， 所 以 构建 时 磁盘 操作 的 时 间 复 杂 度 为 
O(n)。 


Geometric Partitioning 策略 


Geometric Partitioning 策略 是 处 于 上 述 两 种 合并 策略 之 间 的 一 种 方 
Rs 


该 策略 会 将 磁盘 上 的 索引 分 割 成 大 小 不 同 的 多 个 索引 请 段 ， 然 后 始 
终 通 过 将 内 存 上 的 索引 与 磁盘 上 较 小 的 索引 片段 进行 合并 来 削减 合 
并 过 程 中 的 输入 输出 量 。 


而 且 ， 通 过 阶段 性 地 将 磁盘 上 的 索引 片段 与 更 大 的 索引 片段 合并 ， 
可 以 在 保存 磁盘 上 短小 索引 片段 的 同时 ， 控 制 磁盘 上 索引 的 个 数 。 
具体 做 法 就 是 ， 先 引入 一 个 参数 r (一 般 令 r = 二 2 或 r 二 3) ， 然 后 
将 0 个 或 大 于 xx- D52 晶 小 于 (r- 1r*-22 个 倒 排 项 ， 存 储 到 按 不 同 
大 小 划分 出 来 的 第 kk 级 (Kk = 1, 2, 3...) 索引 片段 中 。 


此 时 ， 在 内 存 上 构建 出 的 索引 通常 要 与 与 第 1 级 索引 片段 进行 合 
并 。 然 后 ， 当 倒 排 项 的 个 数 超过 了 第 1 级 的 范围 (上限) 时 ， 束 要 
将 第 工 级 索引 片段 与 上 一 级 的 索引 片段 进行 合并 。 以 此 类 推 ， 反 复 
全 
别 的 上 限 `。 


下 面 ， 让 我 们 来 看 一 下 当 r = 2 时 的 具体 合并 过 程 。 当 = 2 时 ， 
可 以 通过 与 二 进 制 数 加 一 相同 的 过 程 进 行 合 并 处 理 。 也 就 是 说 ， 二 
进 制 数 的 各 位 就 相当 于 级 别 ， 进 位 就 相当 于 与 上 一 级 的 索引 片段 进 
行 合 并 处 理 。 例 如 ， 可 以 用 00000100 表示 在 第 3 级 上 有 索引 片 
js 

将 内 存 上 的 索引 依次 合并 到 该 状态 ， 就 会 得 到 如 下 结果 。 
00000100 -00000101 - 00000111 00001000 -，..….. 

当 r 三 2 时 ， 由 于 个 倒 排 项 需要 进行 log(wVb) 次 合并 ， 所 以 构建 
时 磁盘 写 操作 的 时 间 复 杂 度 为 O(n log>(nb))。 

















在 Geometric Partitioning 中 ， 通 过 调整 参数 r， 就 可 以 权衡 索引 的 
构建 性 能 和 检索 性 能 。 


。 当 7 较 小 时 ~ 构建 性 能 优先 

。 当 r 较 大 时 ~ 检索 性 能 优先 
图 A-2 中 男 出 了 在 本 小 节 介 绍 过 的 各 种 合并 策略 的 构建 过 程 。 在 各 
种 策略 中 ， 构 建 时 间 磁 盘 写 入 时 的 时 间 复 杂 度 和 磁盘 上 的 索引 数 ， 


如 表 A-1 所 示 。 史 外， 有关 这 些 方法 的 详细 和 内容， 请 阅读 参考 文献 
7。 
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图 A-2 各 种 合并 策略 的 构建 过 程 


※ 带 颜色 的 节点 mi 表示 在 内 存 上 构建 的 第 i 个 索引 片段 。 线 条 加 粗 的 节点 表示 将 9 个 内 
存 上 的 索引 与 磁盘 上 的 索引 合并 后 的 索引 片段 。 


表 A-1 各 种 合并 策略 的 性 能 特性 





No Geometric Partitioning (r= 


Remerge Merge 2) 





阅 寻 时 本 和 近 作 的 时 间 复 杂 | 02) om omogb) 


磁盘 上 的 最 大 索引 数 1 n/b log>(n/b) 











2 引 片 段 合 并 时 ， 通 常 都 是 进行 多 路 合并 ， 而 不 是 阶段 性 地 两 两 


分 布 式 索引 
1 将 倒 排 索引 分 布 到 多 台 计 算 机 上 的 方法 


当 需 要 检索 那些 为 大 量 文档 构建 的 索引 或 需要 处 理 大 量 查 询 时 ，1 台 计 
算 机 未 必 有 具备 足够 的 性 能 。 为 此 ， 在 大 规模 的 搜索 引 警 中， 为 了 提高 检 
索 处 理 的 性 能 ， 通 常 都 会 将 索引 分 布 到 多 台 计 算 机 上 。 据 说 在 像 Google 
等 Web 搜索 引擎 中 ， 早 在 2003 年 左右 ， 就 已 经 将 几 十 TB 规模 的 索引 
分 布 到 几 千 台 服 务 器 上 了 (参考 文献 8) 。 


使 用 多 台 计 算 机 提高 检索 处 理性 能 的 方法 大 体 上 可 以 分 为 以 下 两 种 。 
。 复制 索引 (Replication) 
。 分割 索 引 (Partitioning) 


所 谓 复 制 案 引 ， 束 是 将 相同 的 倒 排 索引 《的 副本 〉 配备 到 多 台 计 算 机 
上 。 在 检索 时 ， 一 旦 将 查询 发 送 给 中 继 服 务 器 (Receptionist) ， 中 继 服 
a 0 
检索 处 理 。 


由 于 这 种 方法 能 够 使 生 叶 量 随 痢 计算 机 人 台数 的 提升 而 提升 ， 所 以 当 碍 询 
的 吞吐 量 至 关 重 要 时 ， 该 方法 将 非 党 有效。 虽然 复 制 索 引 具 有 通过 中 继 
服务 器 进行 检索 的 特点 ， 但 古 在 检索 处 理 的 步骤 上 该 方法 并 没有 什么 腕 
点 ， 所 以 对 它 的 讲解 先 告 一 段落 。 


为 一 方面 ， 所 请 分 割 索 引 ， 束 是 将 倒 排 索引 分 割 成 多 份 ， 然 后 将 分 割 而 
成 的 倒 排 索引 睫 段 配备 到 多 合计 算 机 上 的 方法 。 而 在 检索 时 ， 一 般 都 需 
要 询问 多 台 计 算 机 ， 然 后 再 把 得 到 的 多 条 结果 整合 起 来 。 一 般 认 为 该 方 
法 适用 于 想 要 乡 短 俘 询 啊 应 时 间 的 场景 。 下 面 ， 我 们 就 来 进一步 讲解 分 
割 索 引 的 方法 。 


1 两 种 分 割 倒 排 索引 的 方法 
































分 割 索引 的 方法 大 体 上 可 以 分 为 两 种 。 
。 按 文 档 划 分 


按 文 档 划 分 (Document Partitioning) 是 一 种 对 文档 集合 进行 分 割 
后 ， 将 分 割 后 的 文档 集合 连同 相应 的 倒 排 索引 分 布 到 多 台 计 算 机 
(以 下 称 为 索引 服务 器 ) 上 的 方法 。 如 图 A-3 所 示 ， 该 方法 其 实 就 
是 对 倒 排 索引 进行 了 纵向 分 割 。 


document IDs 
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图 A-3 按 文档 划分 其 实 是 对 倒 排 索引 进行 了 纵向 分 割 
在 检索 时 ， 由 中 继 服务 器 将 碍 询 发 送 到 全 部 的 索引 服务 右上 。 各 过 
引 服务 器 只 对 目 己 管理 的 索引 进行 检索 处 理 ， 并 将 检索 结 打 返回 给 
中 继 服 务 器 。 中 继 服务 器 将 各 结果 合并 后 ， 再 将 最 终结 果 返 回 给 请 
求 者 。 
中 继 服务 器 的 整合 处 理 主要 由 以 下 两 个 步骤 构成 。 

。 合并 检索 结果 


。 重新 排名 














例如 ， 当 请 求 者 需要 获取 前 大 个 按照 得 询 与 文档 的 关联 度 排 序 的 文 
档 时 ， 首 先 残 要 从 各 索引 服务 器 获取 前 k 个 按 关 联 度 排序 的 文档 的 
文档 信息 〈 文 档 编号 、 得 分 等 ) 。 然 后 ， 将 这 些 结果 合并 成 一 个 整 
体 ， 计 算出 排 在 前 k 个 的 文档 编号。 最后， 将 文档 编写 连同 对 应 的 
文档 信息 一 起 作为 结果 返回 给 请 求 者 。 


文档 信息 有 时 是 存储 在 索引 服务 器 上 的 ， 也 有 时 会 集中 存储 在 其 他 
服务 器 上 。 按 文档 划分 的 示意 图 如 图 A-4 所 示 。 
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图 A-4 ” 按 文 档 划 分 的 示意 图 
按 单词 划分 


按 单 词 划 分 (Term Partitioning) 是 一 种 对 词典 进行 分 割 后 ， 将 分 割 
后 的 词典 片段 连同 这 一 部 分 词典 中 的 单词 所 对 应 的 倒 排 索引 以 及 文 
档 集 合 分 布 在 多 台 计 算 机 中 的 方法 。 如 图 A-3 所 示 ， 该 方法 其 实 就 
是 对 倒 排 索引 进行 了 横 问 分 割 |。 


在 检索 时 ， 首 先 由 中 继 服 务 句 根据 单词 和 索引 服务 器 的 对 应 表 ， 将 
要 检索 的 词语 发 送 到 相应 的 索引 服务 器 上 ， 并 由 这 些 索 引 服务 器 完 
成 检索 词 的 检索 处 理 。 然 后 ， 索 引 服 务 器 再 将 作为 检索 结 末 的 倒 排 
文件 返回 给 中 继 服 务 占 ， 并 在 中 继 服 务 器 上 进行 多 个 倒 排 文件 的 合 
并 处 理 等 操作 。 最 后 与 按 文档 分 割 时 相同 ， 最 后 再 将 一 部 分 合并 后 
的 结果 返回 给 请 求 者 。 按 单词 划分 的 示意 图 如 图 A-5 所 示 。 
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图 A-5 按 单词 划分 的 示意 图 
这 两 种 分 割 方式 各 有 利弊 ， 下 面 我 们 就 来 定性 地 比较 一 下 它们 “。 


在 按 文档 划分 中 ， 由 于 分 割 的 是 文档 集合 ， 所 以 各 索引 服务 器 中 都 
分 配 到 了 大 小 差不多 的 索引 和 文档 集合 。 因 此 ， 该 方法 具有 检索 时 
各 索引 服务 器 的 负载 都 很 平均 的 特点 。 也 束 是 说 ， 可 以 通过 增加 计 
算 机 的 数量 来 加 快 检索 处 理 的 速度 。 这 种 较 高 的 可 扩展 性 使 得 按 文 
0 Google 和 Yahool 为 代表 的 大 规模 搜索 引擎 

















另 一 方面 ， 对 于 按 单 词 划分 ， 由 于 分 割 的 是 词典 ， 而 且 每 个 单词 在 
文档 内 的 出 现 频 率 又 不 相同 ， 所 以 由 各 索引 服务 器 管理 的 倒 排 索引 
的 大 小 以 及 文档 集合 的 大 小 都 有 可 能 很 不 平均 。 而 且 ， 在 检索 时 ， 
由 于 只 询问 了 管理 检索 词 的 索引 服务 器 ， 而 检索 词 的 检索 频率 又 不 
相同 ， 所 以 这 可 能 会 导致 对 索引 服务 器 的 询问 次 数 分 布 不 均 的 情 

况 。 因 此 ， 就 会 出 现 各 索引 服务 器 负载 不 平均 ， 部 分 索引 服务 器 负 
载 较 局 的 情况 。 


但 是 ， 从 在 检索 时 要 从 二 级 存储 融 读 取 数据 的 角度 来 看 ， 按 单词 划 
分 还 是 具有 一 些 优 势 的 。 在 按 单 词 划分 时 ， 由 于 各 检索 词 所 对 应 的 
倒 排列 表 都 在 1 台 索 引 服务 器 上 ， 所 以 只 需要 进行 1 次 顺序 访问 即 
可 获取 所 需 的 倒 排列 表 。 而 另 一 方面 ， 在 按 文档 划分 时 ， 为 了 获取 
各 检索 词 所 对 应 的 倒 排列 表 ， 需 要 对 每 侣 索引 服务 器 都 进行 1 次 顺 
序 访 问 。 也 惑 是 说 ， 相 对 于 按 文档 划分 ， 按 单词 划分 具有 输入 输出 


























的 忌 数 较 少 的 优 后 。 


4 定量 比较 的 内 容 请 阅读 参考 文献 9。 














A-2 wiser 中 的 文本 提取 和 存储 
用 于 处 理 XML 的 2 种 API 一 DOM 和 SAX 


由 于 第 2 章 并 没有 详细 地 讲解 wiser 中 的 “文本 提取 器 *»， 所 以 在 本 节 ， 
就 让 我 们 深入 地 了 解 一 下 在 该 模块 上 进行 的 处 理 吧 。 


由 于 本 书 所 使 用 的 Wikipedia 的 词 条 数据 全 部 来 源 于 工 个 巨大 的 XML 
文件 ， 所 以 要 想 通 过 wiser 构建 索引 ， 就 需要 先 从 包含 了 所 有 词 条 的 
人 《文档 ) ， 然 后 再 从 各 个 词 条 中 提取 出 标 
题 和 正文 。 


为 了 加 载 XML 文件 ， 我 们 在 wiser 中 使 用 了 名 为 expat 的 代码 库 。 用 于 
处 理 XML 的 API 分 为 以 下 两 种 。 


e。 DOM (Document Object Model) 








。 SAX (Simple APIfor XML) 


使 用 DOM 时 ， 会 先 将 整个 XML 文档 全 部 加 载 到 内 存 中 ， 然 后 再 开始 
解析 人 处理。 也 就 是 说 ， 这 种 方法 的 优点 在 于 操作 时 可 以 忽略 元 素 的 顺 

序 ， 而 缺点 在 于 会 消耗 大 量 的 内 存 。 虽 然 DOM 使 用 起 来 很 方便 ， 但 是 
会 占用 大 量 的 资源 。 与 此 相反 ， 在 使 用 SAX 时 ， 由 于 是 一 边 加 载 XML 
中 的 元 素 ， 一 边 依 次 进行 处 理 的 ， 所 以 只 需 少 量 的 内 存 即 可 完成 处 理 ， 
但 是 处 理 时 不 得 不 考虑 XML 文档 中 元 素 的 顺序 。 综 上 所 述 ，DOM 和 

SAX 各 有 各 的 优 缺 点 。 


由 于 包含 着 Wikipedia 词 条 的 XML 文件 相对 来 说 还 是 比较 大 的 。 所 以 
对 于 现在 〈2014 年) 的 个 人 计算 机 而 言 ， 要 把 所 有 的 数据 都 加 载 到 内 
存 上 和 恐 人 还 有 些 困难 。 因 此 ， 在 wiser 中 我 们 会 使 用 SAX 来 处 理 
XML 。 


提取 文档 的 标题 和 正文 


在 wiser 中 ， 有 关 从 Wikipedia 词 条 数据 中 提取 文档 的 处 理 过 程 都 写 在 
了 文件 wikiload.c 中 的 函数 load_wikipedia_dump0 中 。 由 于 该 函数 中 并 


没有 进行 十 分 复杂 的 处 理 ， 所 以 我 们 就 一 行 一 行 地 往 下 读 吧 。 


简单 来 说 ， 函 数 load_wikipedia_dump0 的 作用 是 用 SAX 解析 含有 
Wikipedia 词 条 数据 的 XML 文档 ， 并 从 中 提取 出 词 条 的 标题 和 正文 。 提 
取出 的 标题 和 正文 会 通过 存储 文档 的 回调 函数 存储 到 数据 库 中 ， 而 该 回 
调 函 数 会 作为 参数 传 入 函数 load_wikipedia_dump( 中 。 下 面 我 们 就 来 梳 
理 函 数 load_wikipedia_dump0 的 源 代码 。 





/** 
* 加 载 Wikipedia 的 副本 (XML 文件 ) ， 并 将 其 内 容 传递 给 指定 的 函数 。 














* @param[in] env 存储 着 应 用 程序 运行 环境 的 结构 体 
* @param[in] path Wikipedia 副 本 的 路 径 
* @param[in] func 接收 env， 词 条 标题 ， 词 条 正文 3 个 参数 的 回调 函数 
* Oparam[in] max_article_count 最 多 加 载 多 少 个 词 条 
* @retval 6 成 功 
* @retval 1 申请 内 存 失 败 
* @retval 2 打开 文件 失败 
* @retval 3 加 载 文件 失败 
* @retval 4 解析 XML 文件 失败 
*/ 
int 
load wikipedia dump(wiser env *env， 
const char *path, add document callback func, int max_ 



































article count) 
{ 
FILE *fp; 
int rc = 0; 
XML_Parser xp; 
char buffer[LOAD BUFFER_SIZE ] ; 
wikipedia _ parser wp = {@ 























env， /* 存储 着 应 用 程序 运行 环境 的 结构 体 */ 
IN_DOCUMENT, /* 初始 状态 */ 
NULL ， /* 词 条 标题 的 临时 存储 区 */ 
NULL ， /* 词 条 正文 的 临时 存储 区 */ 
0， /* 初始 化 经 过 解析 的 词 条 总 数 */ 
max_article count，/* 最 多 要 解析 多 少 个 词 条 */ 
func /* 将 解析 后 的 文档 传递 给 该 函数 */ 
}; 


if (!(xp = XML_ ParserCreate("UTF-8"))) {e 
print error("cannot allocate memory for parser."); 
return 1; 


} 


if (!(fp = fopen(path, "rb"))) {e 


print error("cannot open wikipedia dump xml] file(%s).", 
strerror(errno)); 

rc = 2; 

goto exit; 


} 


XML_SetElementHandler(xp, start, end);@ 
XML_SetCharacterDataHandler(xp, element data); @ 
XML_SetUserData(xp, (void *)&wp);e 


while (1) {6@ 
int buffer len, done; 


buffer len = (int)fread(buffer, 1, LOAD BUFFER SIZE, fp);® 
if (ferror(fp)) { 
print error("wikipedia dump xml file read error."); 
rc = 3; 
goto exit; 
} 
done = feof(fp); 


if (XML Parse(xp, buffer, buffer len, done) == XML STATUS ERROR) { 
print error("wikipedia dump xml file parse error."); 
rc = 4; 
goto exit; 


} 
if (done || (max_article count >= 6 && 
max_article count <= wp.article count)) { break; } 
} 
exit: 
if (fp) { 
fclose(fp); 


if (wp.title) { 

utstring free(wp.title); 
} 
if (wp.body) { 

utstring free(wp.body); 
} 
XML_ParserFree(xp); 
return rc; 





在 wiser 中 ， 我 们 将 各 种 各 样 的 信息 都 存储 到 了 一 个 名 为 wiser_env 





的 、 作 为 全 局 变量 使 用 的 结构 体 中 。 这 是 一 个 作为 全 局 变量 使 用 的 结构 


体 。wiser_env 的 定义 在 文件 wiser.h 中 。 


函数 load_wikipedia_dump() 可 接收 4 个 参数 ， 依 次 是 刚刚 提 到 的 
wiser_env、Wikipedia 副本 的 路 径 、 回 调 函 数 和 最 多 加 载 多 少 个 词 条 即 
最 多 为 多 少 个 词 条 创建 索引 。 一 旦 打开 了 指定 路 径 下 的 XML 文件 ， 就 
解析 时 每 取出 工 个 词 条 ， 就 要 调用 1 次 录入 词 条 的 回 
调 函 





typedef struct { 
wiser_ env *env; 存储 着 应 用 程序 运行 环境 的 结构 体 */ 
wikipedia status status; 0 XML 标 签 的 哪 一 部 分 */ 
UT_string *title; 条 标题 的 临时 存储 区 */ 
UT_string *body; I */ 




















int article count; 经 过 解析 的 词 条 总 数 */ 

int max_article count; 最 多 要 解析 多 少 个 词 条 */ 

add_document_ callback func; /* 将 解析 后 的 文档 传递 给 该 函数 */ 
} wikipedia _parser; 





首先 ， 在 步骤 四 中 ， 我 们 初始 化 了 一 个 wikipedia_. parser 类 型 的 变量 ， 
用 于 管 理解 析 XML 时 的 状态 和 环境 等 。 另 外 ， 为 了 管理 作为 文档 标题 
(title》 和 正文 (body) 的 字符 串 ， 我 们 使 用 了 专门 用 于 处 理 字 符 串 的 
代码 库 utstring”。 


Shttp://troydhanson.github.io/uthash/utstring.html 


在 四 的 步骤 中 ， 为 了 使 用 作为 XML 解析 器 的 expat， 我 们 进行 了 一 些 准 
0 这 里 仅仅 是 用 expat 创建 了 一 个 以 字符 编码 UTF-8 为 目标 编码 


在 全 的 步骤 中 ， 我 们 打开 了 给 定 路 径 下 的 XML 文件 。 为 了 慎重 起 见 ， 
将 b 添加 到 了 函数 fopen( ) 的 第 二 个 参数 中 ， 表 示 以 二 进 制 文件 的 模式 
读 取 文件 。 之 所 以 这 样 做 ， 是 因为 如 果 作 为 文本 文件 处 理 ， 就 难免 要 进 
行 一 些 额外 的 转换 工作 。 

另外 ， 我 们 还 必须 将 “在 这 个 时 候 要 这 样 做 ”的 处 理 过 程 注册 到 刚刚 生成 
XML 解析 右上。 在 SAX 中 ， 可 以 根据 XML 的 标签 设 定 要 调用 的 郴 


在 四 的 步骤 中 ， 用 函数 XML_SetElementHandler0 注册 了 遇 到 起 始 标签 





或 结束 标签 时 要 调用 的 函数 。 在 这 里 ， 我 们 创建 并 注册 了 函数 start() 和 
end()。 


同样 ， 接 下 来 义 设 定 了 过 到 标签 中 的 字符 串 时 ， 要 调用 函数 


element_data()。 


在 全 中 设 定 的 是 将 刚刚 提 及 的 wikipedia _- pe 0 变量 wp 的 指针 传 
设 定好 以 后 ， 我 们 就 可 以 通过 wp 在 函数 之 间 进 行 信 
息 交 换 了 。 


@ 是 读 取 文 件 内 容 后 ， 调 用 SAX 的 API 一 一 函数 XML_Parse() 的 循 
环 。 在 该 循环 中 ， 了 刚刚 注 册 的 函数 start()、end() 和 element_data() 会 被 
调用 。 有 关 该 循环 的 细节 我 们 将 在 各 后 讲解 。 


另外 ， 在 @@ 的 步骤 中 ， 为 了 控制 内 存 的 使 用 量 ， 我 们 每 次 只 从 XML 文 
件 中 读 取 由 常数 LOAD_BUFFER_SIZE 指定 的 字 节 数 ， 并 将 这 一 部 分 数 
据 加 载 到 内 存 上 


掌握 状态 的 迁移 
下 面 ， 让 我 们 再 来 看 一 下 start()、end() 和 element_data() 这 3 个 函数 。 
在 这 里 ， 请 诸位 注意 变量 wp 中 的 成 员 变 量 wp.status。wp.status 用 于 管 
理解 析 XML 时 的 状态 ， 在 对 wp 进行 初始 化 时 ， 我 们 将 status 字段 的 
值 设 为 了 IN_DOCUMENT。 随 着 XML 文件 的 不 断 加载 ， 我 们 还 要 不 断 
地 变更 wp.status 的 取 值 。 

函数 start() 和 函数 end() 
首先 ， 我 们 来 看 一 下 遇 到 起 始 标签 时 会 被 调用 的 函数 start() 和 过 到 结 


标签 时 会 被 调用 的 函数 end0。 这 两 个 图 数 的 职责 是 根据 标签 种 类 的 不 
同 ， 相 应 地 变更 状态 。 











/** 

* 遇 到 XML 的 起 始 标签 时 被 调用 的 函数 

* @param[in] user data Wikipedia 解 析 器 的 运行 环境 
* @param[in] el XML 标 签 的 名 
* @param[in] attr XML 标签 的 属性 列表 
*/ 





忻 








static void XMLCALL 
start(void *user data, const XML Char *el, const XML Char *attr[]) 
{ 
wikipedia parser *p = (wikipedia parser *)user data; @ 
switch (p->status) { © 
case IN DOCUMENT: 
if (!lstrcmp(el, "page")) { 
p->status = IN_PAGE ; 
} 
break; 
case IN PAGE: 
if (!strcmp(el, "title")) { 
p->status = IN PAGE_ TITLE; 
utstring new(p->title); 
} else if (!strcmp(el, "id")) { 
p->status = IN PAGE_ID; 
} else if (!strcmp(el, "revision")) { 
p->status = IN PAGE REVISION; 
} 
break; 
case IN PAGE TITLE: 
case IN PAGE_ID: 
break; 
case IN PAGE REVISION: 
if (!strcmp(el, "text")) { 
p->status = IN PAGE REVISION TEXT; 
utstring new(p->body); 
} 
break; 
case IN PAGE REVISION TEXT: 
break; 
} 
} 


Ve 
* 遇 到 XML 的 结束 标签 时 被 调用 的 函数 
* @param[in] user data Wikipedia 解 析 器 的 运行 环境 
* @param[in] el XML 标签 的 名 字 
*/ 
static void XMLCALL 
end(void *user data, const XML Char *el) 
{ 
wikipedia parser *p = (wikipedia parser *)user data; @ 
switch (p->status) { @ 
case IN DOCUMENT: 
break; 
case IN PAGE: 








if (!lstrcmp(el, "page")) { 
p->status = IN DOCUMENT; 
} 
break; 
case IN PAGE TITLE: 
if (!strcmp(el, "title")) { 
p->status = IN_PAGE ; 
} 
break; 
case IN PAGE_ID: 
if (!strcmp(el, "id")) { 
p->status = IN_PAGE ; 
} 
break; 
case IN PAGE REVISION: 
if (!strcmp(el, "revision")) { 
p->status = IN_PAGE ; 
} 
break; 
case IN PAGE REVISION TEXT: @ 
if (!strcmp(el, "text")) { 
p->status = IN PAGE_ REVISION; 
if (p->max_article count < 8 || 
p->article count < p->max_article count) { 
p->func(p->env, utstring body(p->title), utstring body(p->body)); 
} 
utstring free(p->title); 
utstring free(p->body); 
p->title = NULL; 
p->body = NULL; 
p->article count++; 
} 
break; 
} 
} 





首先 ， 在 候 的 步骤 中 ， 我 们 将 变量 user_data 的 类 型 转换 成 了 
wikipedia_parser 的 指针 。 这 样 做 是 为 了 可 以 通过 变量 名 来 访问 


wikipedia_parser 类 型 的 成 员 。 


在 @ 的 switch 语句 中 ， 根 据 状态 p->status 的 取 值 ， 产 生 了 若干 个 分 
支 ， 分 别处 理 各 个 状态 。 


。 当 状 态 为 IN_DOCUMENT 时 








一 如 果 遇 到 了 page 标签， 就 将 状态 变更 为 IN_PAGE， 表 明 当 前 
解析 到 了 page 标签 中 


。 当 状 态 为 IN_PAGE 时 


”如果 遇 到 了 title 标签 ， 束 将 状态 变更 为 IN_PAGE_TITLE， 表 
明 当 前 解析 到 了 title 标签 中 


如果 遇 到 了 revision 标签 ， 就 将 状态 变更 为 
IN_PAGE_REVISION， 表 明 当 前 解析 到 了 revision 标签 中 


当 状 态 为 IN_PAGE_REVISION 时 


”如 果 遇 到 了 text 标签 ， 束 将 状态 变更 为 
IN_PAGE_REVISION_TEXT， 表 明 当 前 解析 到 了 text 标签 中 


同样 地 ， 在 加 的 switch 语句 中 ， 我 们 还 是 根据 状态 产生 分 支 并 分 别处 理 
各 个 状态 。 


。 当 状 态 为 IN_PAGE 时 


-> 如 来 过 到 了 page 的 结束 标签 ， 束 将 状态 变更 为 
IN_DOCUMENT 





。 当 状 态 为 IN_PAGE_TITLE 时 

”如 果 遇 到 了 title 的 结束 标签 ， 就 将 状态 变更 为 IN_PAGE 
。 当 状 态 为 IN_PAGE_REVISION 时 

”如 果 遇 到 了 revision 的 结束 标签 ， 束 将 状态 变更 为 IN_PAGE 
。 当 状态 为 IN_PAGE_REVISION_TEXT 时 


-> 如 来 过 到 了 text 的 结束 标签 ， 束 将 状态 变更 为 
IN_PAGE_REVISION 


-与 此 同时 ， 以 刚刚 取出 的 标题 和 正文 作为 参数 ， 调 用 回调 函数 


通过 结合 函数 start() 和 函数 end0 的 处 理 过 程 ， 就 可 以 管理 与 正在 解析 
的 XML 的 位 置 相对 应 的 状态 了 。 相 对 于 函数 start()， 在 函数 end0 中 进 
行 的 处 理 稍 显 复杂 ， 有 关 状 态 迁 移 以 外 的 部 分 我 们 将 在 稍 后 讲解 。 


解析 处 理 的 状态 迁移 如 图 A-6 所 示 。 












<page>1<rpage> 


<title>/< rtitle» 







<fTrevision> 


IN_PAGE_REVISION 


<text>|] </text> 


IN_PAGE_REVISIOQN_TEXxT 








图 A-6 ”wikiload.c 中 的 状态 迁移 
1 函数 element_data() 
下 面 ， 让 我 们 再 来 看 一 下 遇 到 标签 中 的 字符 串 时 会 被 调用 的 函数 


element_data0。 该 函数 的 作用 是 获取 XML 文档 中 的 文本 。 通 过 函数 
start() 和 endg0 设 定 的 状态 会 在 该 函数 中 发 挥 作 用 。 








炒米 


* 解析 XML 元 素 的 数据 时 被 调用 的 函数 

* @param[in] user _data Wikipedia 解 析 器 的 运行 环境 
* @param[in] data 元 素 中 的 数据 

* @param[in] data_size 数据 的 大 小 

*/ 


static void XMLCALL 
element data(void *user data, const XML Char *data, int data size) 


{ 


wikipedia parser *p = (wikipedia parser *)user data; 

switch (p->status) { 

case IN PAGE TITLE: 
utstring bincpy(p->title, data, data size); 
break; 

case IN PAGE REVISION TEXT: 
utstring bincpy(p->body, data, data size); 
break; 

default: 
/* do nothing */ 
break; 

} 

} 





在 函数 element_data0 中 ， 我 们 会 根据 状态 进行 如 下 的 处 理 。 


当 状 态 为 IN_PAGE _TITLE 时 





将 字符 串 作为 页 面 标题 存储 

当 状 态 为 IN_PAGE_REVISION_TEXT 时 

将 字符 串 作 为 页 面 正文 存储 

也 就 是 说 ， 要 根据 状态 来 判断 由 XML 解析 器 传递 过 来 的 字符 串 是 标题 
还 是 词 条 正文 ， 或 是 其 他 的 什么 数据 。 前 面 拼命 地 更 新 状态 实际 上 全 是 
为 了 函数 element_data()。 

1 函数 end0 所 做 的 处 理 


既然 已 经 明白 了 状态 的 作用 ， 我 们 就 再 来 回顾 一 下 函数 end()。 请 诸位 
注意 当 遇 到 </text> 标签 时 进行 的 处 理 @，。 


首先 ， 当 存储 着 Wikipedia 词 条 正文 的 <text> 标签 结束 时 ， 我 们 会 调用 
将 词 条 存储 到 数据 库 中 的 回调 函数 。 该 回调 函数 存储 在 用 户 数 据 (变量 
p) 中 。 此 时 ， 一 旦 已 存储 的 词 条 总 数 超过 了 词 条 的 最 大 索引 数 ， 就 不 

再 调用 该 回调 函数 了 。 


构建 文档 数据 库 











为 了 存储 从 XML 词 条 数据 中 提取 出 的 标题 和 正文 数据 ， 我 们 在 wiser 
中 使 用 SQLite 这 种 RDBMS (关系 型 数据 库 管理 系统 ) 。 


下 面 我 们 就 实际 接触 一 下 SOL 看 看 wiser 是 如 何 存储 文本 数据 的 
吧 。 首 先 ， 通 过 以 下 的 命令 ， 即 可 以 会 会 证 模式 局 动 SQLite。 在 有 些 环境 
执行 时 ， 需 要 用 名 为 sqlite3 的 命令 代替 sqlite 命令 。 


示例 


> sqlite test.db 
SQLite version 3.7.11 2012-63-26 11:35:56 
Enter ".help” for instructions 


Enter SQL statements terminated with a ";" 
sqlite> 





1 创建 表 

在 RDBMS 中 ， 记 录 的 集合 会 被 存储 到 名 为 表 的 结构 中 。 表 中 的 每 条 记 
录 都 带 有 若干 个 属性 ( 列 ) ， 数 据 就 存储 在 各 个 属性 中 。 而 每 条 记录 由 
什么 样 的 属性 构成 则 需要 事先 设 定 。 

在 这 里 ， 我 们 创建 了 一 张 如 下 所 示 的 用 于 存储 文档 的 表 。 


示例 











CREATE TABLE documents ( 
id INTEGER PRIMARY KEY， 
title TEXT NOT NULL, 
body TEXT NOT NULL 


); 





1 确认 是 否 正确 地 创建 了 数据 库 

我 们 可 以 通过 下 面 儿 条 SQLite 命令 来 确认 是 否 正确 地 创建 了 数据 库 。 
。 .tables 命令 : 输出 数据 库 中 的 表 名 列表 
。 .Schema 命令 : 输出 指定 表 的 定义 


示例 


sqlite> .tables 

documents 

sqlite> .schema documents 
CREATE TABLE documents 


id INTEGER PRIMARY KEY, 
title TEXT NOT NULL, 
body TEXT NOT NULL 


); 





上 述 命令 输出 的 字符 串 其 含义 如 下 所 示 。 
。 documents : 表 名 
。id、title、body : 表 中 的 列 名 


。INTEGER、TEXT: 列 的 类 型 (INTEGER 表示 数值 类 型 、TEXT 
表示 字符 串 类 型 ) 


。PRIMARY KEY : 指定 能 够 唯一 确定 表 中 各 行 的 列 〈( 主 键 ) 
。NOT NULL : 指明 该 列 不 接受 表示 空 值 的 NULL 


为 了 易于 用 C 语言 处 理 ， 我 们 在 这 里 将 数值 类 型 的 id 作为 了 主键 ， 而 
未 使 用 字符 串 类 型 的 title。 


1 添加 新 的 记录 
要 同 RDBMS 中 添加 新 的 记录 时 ， 需 要 像 下 面 这 样 使 用 INSERT INTO 


语句 。 
示例 


sqlite> INSERT INTO documents (title, body) 
VALUES ('test', 'This is a test document.'); 


sqlite> INSERT INTO documents (title, body) 
VALUES ('sample', 'This is a sample document.'); 








在 INSERT INTO 语句 中 ， 需 要 先 指 定 作 为 添加 目标 的 表 名 。 然 后 ， 再 
对 VALUES 关键 字 设 定 以 下 2 个 信息 。 


。 列 名 的 列表 
。 与 前 面 各 列 相 对 应 的 值 的 列表 


在 SQLite 中 ， 被 指定 为 INTEGER PRIMARY KEY 的 列 会 被 自动 地 填 
充 数值 。 因 此 ， 无 需 明确 地 为 该 列 设 定 值 。 


1 查看 已 存储 的 记录 的 列表 
我 们 可 以 像 下 面 这 样 ， 使 用 SELECT 语句 列 出 存储 在 RDBMS 表 中 的 记 
录 。 


示例 


sqlite> SELECT * FROM documents ; 
1|test|This is a test document. 


2|sample|This is a sample document. 





ee 吾 句 中 ， 还 可 以 像 下 面 这 样 ， 只 将 满足 特定 条 件 的 记录 列 出 


示例 


sqlite> SELECT * FROM documents WHERE title = 'test'; 
1|test|This is a test document. 


像 上 面 这 样 ， 就 只 会 显示 title 字段 为 字符 串 test 的 记录 了 。 
1 更 新 数据 

我 们 还 可 以 使 用 UPDATE 语句 的 查询 来 更 新 数据 。 

示例 





sqlite> UPDATE documents SET title = "changed title” WHERE id = 1; 


sqlite> SELECT * FROM documents ; 
1|changed title|This is a test document . 
2|sample|This is a sample document . 


在 wiser 的 database.c 中 的 函数 db_add_document() 中 ， 我 们 束 是 通过 上 
述 几 种 查询 语句 ， 将 Wikipedia 词 条 的 标题 和 正文 存储 到 数据 库 中 的 。 


至 此 为 止 ， 我 们 就 讲解 完了 wiser 是 如 何 从 Wikipedia 的 XML 词 条 数据 
中 提取 标题 和 正文 ， 以 及 又 是 如 何 将 它们 存储 起 来 的 。 虽 然 通 过 SAX 
解析 XML 文档 有 些 麻 烦 ， 但 是 这 里 我 们 所 做 的 处 理 却 很 简单 ， 只 是 从 
XML 中 将 文档 的 标题 和 正文 提取 出 来 后 存储 到 文档 数据 库 中 而 已 。 





后 记 
为 了 开发 实用 的 搜索 引擎 ， 首 先 必须 要 尝试 去 开发 。 就 请 诸位 使 用 优秀 
的 开源 检索 库 ， 先 试 着 搭建 一 个 简单 的 检索 服务 吧 。 


然后 ， 再 将 这 个 检索 服务 公庄 于 世 。 想 必 随 后 诸位 就 要 开始 面 对 一 些 未 
曾 预 料 到 的 问题 了 。 


用 户 输入 了 元 长 的 碍 询 
用 户 通 过 程序 定期 提交 搜索 表单 以 获取 信息 
用 户 意图 挖掘 检索 服务 的 漏洞 


只 是 简单 地 想 想 诸如 此 类 的 问题 ， 诸 位 就 应 该 能 意识 到 ， 本 书 未 曾 提 及 
的 问题 会 层出不穷 。 


让 我 们 通过 技术 水 平和 服务 品质 的 提升 来 解决 这 些 问题 吧 。 只 要 以 本 书 
的 知识 为 基础 ， 再 经 过 反复 的 实践 ， 诸 位 的 检索 服务 定 会 稳健 起 来 。 


笔者 之 所 以 推荐 使 用 开源 的 检索 库 ， 是 因为 在 优化 服务 的 过 程 中 ， 还 需 
要 对 检索 库 加 以 修改 。 而 在 修改 时 ， 本 书 所 介绍 的 有 关 wiser 的 知识 就 
会 友 挥 作用 。 如 果 诸 位 所 进行 的 修改 能 使 很 多 人 受益 ， 那 么 束 请 把 这 个 
修改 反馈 给 检索 库 的 创建 者 吧 。 这 样 一 来 ， 几 是 使 用 了 该 检 索 库 的 检索 
服务 都 会 得 到 升华 。 


笔者 欣然 期 盼 有 朝 一 日 能 够 使 用 上 由 诸位 读者 开发 的 检索 服务 ， 并 和 希望 
本 书 能 对 诸位 有 所 帮助 。 

















末 永 匡 
于 2014 年 8 月 


看 完了 


如 采 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编 
辑 或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebookturingbook.com。 
在 这 里 可 以 找到 我 们 : 


微 博 @ 图 灵 教 育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精 彩 人 生 
微 信 图 灵 教 育 : turingbooks 
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